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序 


深度 学 习 是 人 工 智 能 领域 一 种 新 兴 的 关键 技术 ， 其 概念 由 多 伦 多 大 学 Hinton 等 人 于 2006 
年 提出 ， 含 多 隐 含 层 的 人 工 神经 网 络 感知 器 就 是 一 种 深度 学 习 结构 。 深 度 学 习 具 有 很 强 的 学 科 
交叉 性 ， 涉 及 认 知 科学 、 脑 科学 、 生 物 学 、 数 学 、 运 筹 学 、 控 制 、 计 算 机 、 通 信 、 大 数据 、 云 
计算 、 语 言 学 乃至 人 文科 学 、 社 会 科学 等 学 科 。 近 年 来 ， 深 度 学 习 无 论 是 在 基础 研究 还 是 工 
程 应 用 方面 都 完成 了 很 多 创新 性 工作 ， 例 如 有 监督 卷 积 神经 网 络 、 无 监督 深度 置信 网 络 、 第 一 
个 战胜 人 类 围棋 世界 冠军 的 人 工 智 能 程序 AlphaGo、 人 脸 识别 、 语 音 识别 、 自 然 语 言 处 理 等 。 
GPU、 人 工 智能 芯片 等 硬件 技术 的 突破 ， 让 人 们 对 深度 学 习 的 实用 化 增添 了 信心 。 作 为 全 球 性 
的 前 沿 研究 问题 ,深度 学 习 已 经 受到 众多 科学 家 、 工 程 师 的 关注 ， 其 应 用 几乎 涉及 工程 、 金 融 、 
法 律 、 文 化 、 娱 乐 、 艺 术 等 社会 生活 的 各 个 方面 ， 多 篇 里 程 碑 意义 的 论文 在 Nature. Science 等 
国际 项 尖 学 术 刊 物 上 横 空 出 世 ， 显 示 出 深度 学 习 技 术 旺 盛 的 生命 力 和 广阔 的 应 用 前 景 。 


呈现 在 读者 面前 的 《深度 学 习 技 术 图 像 处 理 入 门 》 一 书 ， 在 兼顾 介绍 深度 学 习 基 础 理论 的 
同时 , 更 侧重 于 记录 作者 本 人 在 学 习 深 度 学 习 技术 时 的 历程 、 感 悟 和 经 验 , 包括 难免 走 过 的 弯路 ， 
作者 也 坦承 地 娓 娓 道 来 。 通 读 全 书 ， 与 同类 书籍 比较 ， 我 认为 该 书 具 有 “ 亦 师 亦 友 、 寓 教 于 乐 
的 特点 : 入 门 部 分 介绍 得 通俗 易 懂 ， 文 风 严 说 亦 不 失 活泼 ， 让 高 深 的 理论 不 那么 神秘 、 枯 燥 ， 
使 得 读者 更 有 阅读 的 乐趣 和 自信 ， 易 于 沉浸 其 中 ， 非 常 适合 作为 自学 的 教材 和 工具 书 ;案例 部 
分 的 代码 ， 均 基于 实际 的 竞赛 ， 偏 重 于 应 用 ， 使 得 读者 也 更 有 兴趣 参与 这 样 的 竞赛 ， 以 “小 试 
牛刀 ”。 


《深度 学 习 技术 图 像 处 理 入 门 》 是 一 本 能 够 帮助 读者 很 快 掌握 和 应 用 深度 学 习 技 术 进 行 图 
像 处 理 的 工具 书 ， 对 生物 、 医 学 、 安 防 、 机 器 人 等 众多 图 像 处 理 领 域 的 工程 应 用 问题 具有 很 大 
的 参考 价值 。 在 我 国 高 度 重视 人 工 智 能 技术 的 发 展 、 将 其 上 升 为 国家 战略 的 时 代 背 景 下 ， 相 信 
该 书 的 出 版 ， 对 于 推动 我 国 深度 学 习 技术 的 培育 、 推 广 、 应 用 具有 积极 的 作用 。 


中 国 农业 大 学 博士 生 导 师 陈 建 
2018 年 8 月 1 日 


Till 


前 


回想 2017 年 4 月 ， 当 清华 大 学 出 版 社 的 编辑 找到 杨 培 文 和 我 ， 商 量 着 写 一 本 与 深度 学 习 相 
关 的 书 时 ， 我 还 是 比较 缺乏 信心 的 。 首 先 ， 自 己 本 专业 是 基因 组 学 ， 或 者 说 是 生物 学 ， 机 器 学 
习 方面 的 知识 都 是 自学 的 。 其 次 ， 我 根本 就 没有 写 过 书 ， 由 我 参与 撰写 ， 可 能 是 班 门 弄 和 佐 ， 内 
容 有 误 都 是 小 事 , 万 一 写 的 内 容 给 读者 灌输 了 错误 的 观念 、 在 大 方向 上 误导 了 初学 阶段 的 读者 ， 
Scte RO SEC. 


出 版 社 方面 同样 了 解 我 们 的 情况 ， 跟 我 们 说 出 版 社 这 次 想 出 一 本 面向 非 数 学 、 计 算 机 相关 
专业 的 书 ， 希 望 语言 更 加 通俗 易 懂 ， 例 子 更 贴近 实际 项 目 ， 让 非 专 业 出 身 的 人 看 了 以 后 ， 对 机 
器 学 习 、 图 像 处 理 以 及 深度 学 习 三 者 有 一 个 最 基本 的 认识 。 这 里 ， 我 经 常 向 生物 、 医 学 专业 背 
景 的 人 解释 机 器 学 习 模 型 的 原理 ， 而 培 文 则 有 多 次 数据 分 析 竞 赛 名 列 前 茅 的 经 历 ， 因 此 出 版 社 
希望 我 们 两 位 尝试 一 下 。 


所 以 接 下 来 编写 书籍 的 过 程 中 ， 我 们 的 定位 就 是 相 比 现在 市 面 上 主流 的 相关 书籍 ， 前 几 章 
写 得 更 加 通俗 , 把 入 门 的 门槛 再 降低 一 些 ; 然后 后 面 的 章节 基于 参加 数据 分 析 竞 赛 的 实战 过 程 ， 
把 最 终 的 目标 再 定 高 一 些 ， 最 后 我 们 的 配套 代码 以 及 环境 Chttp;//github.com/Jinglue/DLAImg ) 
要 让 初学 者 可 以 很 容易 地 跑 起 来 ， 把 书籍 的 内 容 落 在 实际 运用 中 。 


我 们 希望 这 本 书 可 以 让 非 科 班 出 身 的 读者 快速 了 解 深度 学 习 的 基本 原理 ， 将 相关 技术 举 一 
反 三 ， 运 用 在 自己 的 课题 、 项 目 中 。 以 我 自己 为 例 ， 在 书籍 编写 完成 后 的 审阅 过 程 中 ， 我 仔细 
阅读 了 培 文 撰写 的 运用 循环 神经 网 络 进行 验证 码 识 别 这 一 章节 (第 10 章 ) 的 内 容 ， 后 来 参加 百 
度 AI 挑 战 赛 时 , 最 初 的 模型 就 是 培 文 整理 的 配套 代码 , 后 来 经 过 调整 , 最 后 取得 了 第 二 名 的 成 绩 。 


最 后 一 点 , 阅读 本 书 , 需要 读者 具有 基本 的 Python 编程 基础 , 以 及 科学 计算 相关 模块 的 了 解 。 
这 部 分 内 容 本 书 并 未 涉及 ， 但 读者 可 以 通过 斯 坦 福 大 学 cs228 相关 配套 入 门 习题 进行 简单 的 了 
解 ， 我 们 对 此 进行 了 汉化 Chttps://jizhi.ai/blog/post/cs228-py) 。 


在 此 感谢 景 略 集 智 的 王 文 凯 、 柯 希 阳 在 书籍 编写 过 程 中 提供 的 帮助 。 


胡 博 强 
2018 年 7 月 18 日 
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123 在 云 服 务 器 中 开启 搭载 开发 环境 的 Docker 服务 
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搭建 指定 的 开发 环境 


“ 工 欲 善 其 事 ， 必 先 利 其 器 ”。 在 介绍 本 书 的 具体 内 容 之 前 ， 我 们 首先 需要 进行 硬件 方面 
的 准备 ， 同 时 安装 必要 的 软件 ， 进 而 基于 这 个 开发 环境 学 习 本 书 中 的 案例 代码 。 

本 书 所 用 代码 及 本 章 内 容 对 应 的 开发 环境 ， 读 者 可 以 在 https://github.com/Jinglue/DL4Img 
具体 查阅 。 


1.1 为 什么 要 使 用 指定 的 开发 环境 


使 用 指定 开发 环境 的 主要 目的 是 方便 读者 运行 代码 。 深 度 学 习 环境 主要 基于 Linux 操作 系 
统 搭建 ， 此 过 程 需要 有 Linux 相关 的 知识 作为 铺垫 。 然 而 ， 使 用 指定 的 开发 环境 ， 可 以 将 这 一 
部 分 大 大 简化 , 使 读者 直接 运行 代码 , 降低 入 门 门槛 , 否则 读者 可 能 会 遇 到 很 多 无 从 下 手 的 麻烦 ， 
影响 主要 内 容 的 学 习 。 

首先 ， 确 定 开 发 环境 的 版 本 。Python 的 Scikit-leam、Tensorlow、Keras 等 机 器 学 习 、 深 
度 学 习 常用 库 ， 很 多 基本 用 法 在 不 同 版 本 之 间 都 是 不 同 的 。 另 外 ， 可 能 一 两 年 后 ， 相 比 此 时 
Tensorflow 的 语法 又 有 很 大 不 同 ， 到 那 时 读者 想 使 用 本 书 代 码 的 话 ， 就 会 发 现代 码 运行 错误 ， 
造成 很 多 困扰 。 还 有 这 些 库 的 安装 过 程 中 ， 有 时 并 不 是 安装 一 个 库 的 问题 ， 同 时 涉及 与 系统 库 
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的 交互 。 笔 者 依稀 记得 很 多 年 前 第 一 次 接触 Python， 在 大 型 机 的 个 人 用 户 安装 Scipy 库 时 ， 需 
要 通过 逐一 手动 安装 系统 库 来 解决 包 依 赖 问题 ， 折 腾 了 整整 三 天 。 

其 次 ， 本 书 的 代码 可 以 在 该 开发 环境 下 运行 。 如 果 读 者 觉得 本 书 的 案例 和 自己 学 习 工作 中 
的 案例 比较 接近 ， 可 以 直接 使 用 自己 的 数据 代替 书 中 的 数据 ， 或 者 使 用 本 书 的 模型 快速 得 到 一 
个 和 自己 工作 相关 的 模型 。 

最 后 ， 本 书 基础 部 分 〈 第 2~7 章 ) 的 内 容 ， 计 算 量 并 不 大 ， 可 以 在 普通 的 个 人 电脑 上 部 署 
安装 ， 甚 至 可 以 打开 电脑 浏览 器 ， 然 后 直接 在 景 略 集 智 官网 里 单 击 与 本 书 内 容 相关 的 博客 文章 ， 
在 云端 运行 程序 。 当 然 ， 本 书 的 案例 部 分 〈 第 8~11 章 ) 的 内 容 都 需要 相当 的 计算 量 ， 这 就 需要 
准备 一 台 带 GPU 的 电脑 了 ， 而 这 样 的 电脑 通常 并 不 便宜 。 为 了 方便 读者 学 习 ， 我 们 专门 配置 了 
和 本 书 配套 的 开发 环境 , 方便 读者 租用 云 服 务 器 上 和 手 学 习 。 有 关 电 脑 配 置 和 云 服务 器 租用 方式 ， 
详情 请 见 1.2 节 的 内 容 。 





12 硬件 准备 


本 书 主要 讨论 使 用 深度 学 习 技术 进行 图 像 处 理 分 析 ， 而 深度 学 习 技 术 在 模型 的 训练 阶段 ， 
需要 使 用 除了 CPU 以 外 的 硬件 进行 加 速 才能 达到 理想 的 训练 速度 ， 实 现 模型 的 快速 收敛 。 这 些 
硬件 包括 TPU, FPGA, Intel Xeon Phi 处 理 器 等 ， 但 目前 阶段 使 用 最 广泛 、 开 发 最 简单 的 还 是 
GPU， 即 英 伟 达 (NVIDIA) 公司 的 显卡 。 

之 所 以 是 NVIDIA 公司 的 显卡 ， 是 因为 现在 主流 深度 学 习 框架 大 多 基于 NVIDIA 的 CUDA 
计算 库 ， 而 CUDA 计算 库 支 持 的 硬件 主要 是 自家 产品 。 支 持 CUDA 的 硬件 可 以 在 NVIDIA 官网 
中 找到 Chttps://developer.nvidia.com/cuda-gpus) 。 因 此 ， 想 用 自己 电脑 进行 本 书 深度 学 习 入 门 
学 习 的 用 户 ， 如 果 想 借助 GPU 作为 硬件 帮助 ， 基 本 要 求 是 需要 有 一 台 近 几 年 出 品 的 NVIDIA Sj 
卡 ， 其 显存 大 小 最 好 在 8GB 以 上 。 

如 果 用 户 的 电脑 没有 独立 显卡 或 者 显存 大 小 不 足 ,将 无 法 训练 本 书 最 后 几 章 中 的 案例 。 另 外 ， 
电脑 配置 的 是 AMD 显卡 ， 是 不 是 必须 新 买 一 台电 脑 呢 ? 重新 购置 电脑 当然 也 可 以 ， 但 是 毕竟 
成 本 比较 高 ， 用 户 同 样 可 以 考虑 按 小 时 收费 ， 租 用 GPU 云 服务 器 。 为 了 方便 读者 学 习 ， 我 们 为 
本 书 的 内 容 在 亚马逊 云 Caws) 以 及 腾讯 云 (qcloud) 上 设计 了 专门 的 镜像 ， 方 便 读者 使 用 。 





1.2.1 在 亚马逊 租用 云 GPU 服务 器 
使 用 aws us-east-1 节点 ，GPU 价格 是 0.9 美元 /小 时 ， 也 可 以 使 用 实时 竞价 (Spot Instance) 
方式 以 获得 更 低 的 价格 。 使 用 方法 如 下 : 
(1) 登录 aws 官网 。 进 入 https://console.aws.amazon.com/ec2/v2/home?region=us-east-1， 单 
击 Launch Instance， 如 图 1-1 所 示 。 当 然 ， 也 可 以 单 击 左 侧 的 Spot Instance 选项 选择 更 低 价 的 实 
时 竞价 机 器 ， 然 后 启动 。 
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1-1 在 aws 上 单 击 Launch Instance 
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(2) 选择 左 侧 的 Community AMIs 选项 ， 然 后 在 右 侧 的 文本 框 中 查找 NVIDIA Docker， 再 


选择 一 个 镜像 ， 如 图 1-2 所 示 。 推 荐 使 用 aws us-east-1 节点 。 
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图 1-2 查找 预 装 NVIDIA Docker 的 镜像 





(3) 选择 p2.xlarge 节点 ， 单 击 Review and Launch 按钮 启动 服务 ， 如 图 1-3 所 示 。 
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图 1-3 选择 p2.xlarge 节点 
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(4) 接 下 来 选择 公 钥 ， 如 图 1-4 所 示 。 如 果 还 没有 公 钥 就 进行 创建 。 创 建 公 钥 的 过 程 中 注 
意 预 留 22、8888、6006 这 三 个 端口 ， 供 后 续 使 用 。 短 期 使 用 时 ， 互 


Select an existing key pair or create a new key pair 








可 以 选择 开启 所 有 端 
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图 1-4 选择 公 钥 


C5) f£ PuTTY (Windows) 或 者 终端 (Mac/Linux) 中 , 使 用 密 钥 启动 。 这 里 我 们 以 PuTTY 为 例 ， 
需要 填写 公 网 地 址 ， 如 图 1-5 所 示 。 然 后 需要 指定 刚才 登录 时 使 用 的 公 钥 ， 如 图 1-6 所 示 。 
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图 1-5 输入 公 网 地 址 
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间 定 登录 时 使 用 的 公 铀 





(6) 此 时 单 击 Open 按钮 ， 即 可 登录 aws 服务 器 。 如 果 遇 到 登录 问题 ， 可 以 在 aws 上 问答 
Chttp://docs.aws.amazon.com/zh cn/AWSECO2/latest/UserGuide/putty.html) 中 查询 具体 原因 。 


1.2.2 在 腾讯 云 租 用 GPU 服务 器 








亚马逊 云 是 














以 考虑 腾讯 云 、 阿 里 云 的 按 小 时 计 费 。 这 里 以 租用 腾讯 云 为 例 。 
CD 进入 网 址 https://cloud.tencent.com/product/gpu， 单 击 “ 立 即 选 购 ”按钮 ， 如 图 1-7 所 示 。 








外 的 机 器 ， 大 家 实际 使 用 时 可 能 网 络 连接 速度 并 不 快 。 这 种 情况 下 ， 大 家 可 
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计算 


云 服务 器 
GPU 云 服务 器 
FPGA 云 服务 器 
专用 宿主 机 
黑石 物理 服务 器 
. Rote 
* 民 石 AI 服务器 
云 硬盘 

容器 服务 
弹性 佬 六 


负载 均衡 





GPU 云 服务 器 


GPU 云 服务 器 (GPU Cloud Computing) 县 基于 GPU 的 应 用 于 视频 编辑 码 、 深 度 学 习 、 科 
学 计算 等 多 种 场景 的 快速 、 稳 定 、 弹 性 的 计算 服务 ， 我 们 提供 和 标准 云 服务 器 一 致 的 管理 
方式 。 出 色 的 图 形 处 理 能 力 和 高 性 陛 计算 能 力 为 您 提供 极致 计算 性 能 ， 有 效 解放 您 的 计算 
| 压力， 提升 产 品 的 计算 处 理 效率 与 克 争 力 。 


Q GPU 云 服务 侨 仅 提供 有 限 区 域 购买 ， 清 参 专 购买 指 5|>> 


产品 价格 





产品 功能 ARER 文档 








(2) 选择 “ 按 量 计 费 ”， 然 后 指定 机 型 ， 这 是 


图 1-7 选 购 GPU 云 服务 器 





E GPU 单 卡 足够 ， 如 图 1-8 所 示 。 







































































1. 选 择 地 域 与 机 型 2. 选 择 镜像 nhu 
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。 GPU 型 G2 1iTesta M40 288r 566 * nas MS a 
GPU 型 G2 2i Tesla M40 56 核 N26 Lj 27.71 元 /小 时 起 
图 1-8 选择 计 费 模式 和 机 型 
G) 接 下 来 选择 GPU 镜像 ， 单 击 “ 从 服务 市 场 选 择 ” 链 接 ， 如 图 1-9 所 示 。 
(4) 在 弹出 的 窗口 中 选择 腾讯 云 官方 的 GPU 镜像 ， 如 图 1-10 所 示 。 注 意 ， 这 里 显示 的 官 
方 镜像 CUDA 是 7.5 版 本 ， 读 者 使 用 该 镜像 时 需要 下 载 并 安装 8.0 版 本 以 上 的 CUDA. 
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图 1-9 选择 镜像 
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图 1-10 选择 腾讯 云 官方 镜像 
(55 选择 完毕 ， 单 击 “ 下 一 步 : 选择 存储 与 网 络 ” 按 钮 ， 如 图 1-11 所 示 。 
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图 1-11 单 击 “ 下 一 步 : 选择 存储 与 网 络 ” 
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(6) 接 下 来 选择 带宽 和 服务 器 数量 等 ， 如 图 1-12 所 示 。 
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1-12 选择 带宽 和 服务 器 数量 等 











(7) 单 击 “ 下 一 步 : 设置 信息 ”按钮 ， 设 置 安全 规则 、 购 买 服务 器 。 在 “安全 组 ” 框 中 至 
少 要 保留 22、8888、6006 三 个 端口 ， 短 期 使 用 也 可 以 全 部 开启 ， 如 图 1-13 所 示 。 
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1413 设置 安全 规则 和 购买 服务 器 








(8) 购买 成 功 会 显示 如 图 1-14 所 示 的 页 面 。 稍 等 几 分 钟 ， 公 网 P 地 址 出 现 后 ， 使 月 
了 地 址 登录 即 可 。 
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图 1-14 购买 成 功 














C9) 使 用 PuTTY 登录 购买 的 云 服务 器 ,其 操作 步骤 与 aws 登录 相同 , 注意 不 需要 设置 秘 钥 ， 
填写 卫 地 址 即 可 。 


(10) 参考 1.3.2 小 节 ， 安 装 CUDA, Docker, NVIDIA Docker 等 。 








1.2.3 在 云 服务 器 中 开启 搭载 开发 环境 的 Docker 服务 
登录 服务 器 ， 开 启 Docker 以 及 NVIDIA Docker 服务 ， 并 开启 镜像 。 


systemctl start docker 

Systemctl start nvidia-docker 

git clone https://github.com/Jinglue/DL4Img 
nvidia-docker pull hubg/dl4img 


nvidia-docker run -d -v -/dl4img/notebook/:/srv -p 8888:8888 -p 6006:6006 
hubq/dl4img 


打开 镜像 后 ， 读 者 可 以 在 浏览 器 中 输入 下 面 的 内 容 来 访问 刚才 搭建 的 开发 环境 。 
http:// [ 购买 云 服务 器 的 ITP 地 址 ] :8888 
登录 密码 为 jizhitencent， 如 图 1-15 所 示 。 


C Q|B eme casos; 
‘Z jupyter 1. 输入 网 址 http://[ 服 务 器 IP]:8888 





2. 输入 密码 dl4img 




















1-15 访问 刚 搭建 的 开发 环境 
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1.3 软件 准备 


如 果 读 者 选择 购买 去 服务 器 ， 这 部 分 内 容 就 可 以 省 略 了 ， 因 为 云 服务 器 中 已 经 将 所 需 软件 
安装 完成 。 如 果 读 者 自己 有 符合 硬件 要 求 的 电脑 ， 建 议 使 用 Linux 的 Ubuntu 16.04 操作 系统 进 
行 学 习 。 这 里 以 新 安装 的 Ubuntu16.04 系统 以 及 CentOS 7 系统 为 例 ， 介 绍 如 何 配置 环境 。 

首先 分 别 介绍 如 何 安装 NVIDIA 显卡 驱动 程序 、Docker 以 及 NVIDIA-Docker， 我 们 需要 使 
用 这 些 工具 来 建立 开发 环境 。 


1.3.1 在 Ubuntu 16.04 下 配置 环境 


COD 首先 需要 安装 NVIDIA 显卡 驱动 程序 。 登 录 NVIDIA 网 站 下 载 驱动 程序 或 打开 链接 
http://www.nvidia.com/Download/Find.aspx 选择 操作 系统 和 安装 包 。 以 M40 为 例 ， 选 择 要 下 载 的 
驱动 程序 版 本 ， 如 图 1-16 所 示 。 


NVIDIA Driver Downloads 





Advanced Driver Search 
Product Type: Operating System: 

Tesla Ci Linux 64-bit T 
Product Series: CUDA Toolkit: 

M-Class U 8.0 T, 
Product: Language: 

M40 24GB. - English (US) v 

Recommended/Beta: 
AlL T, 








图 1-16 选择 NVIDIA 驱动 程序 





(2) 选择 具体 的 版 本 号 ， 如 图 1-17 所 示 。 











Name Version Release Vate TUDA TooIR 
3) Tesla Driver for Linux x64 3 375.88 September 21, 2017 8.0 
b Tesla Driver for Linux x64 时 384.66 August 14, 2017 8.0 
® Tesla Driver for Linux x64 Vll 375.74 July 31, 2017 8.0 
S Tesla Driver for Linux x64 3 364.59 July 28, 2017 8.0 
® Tesla Driver for Linux x64 恒 375.66 May 9, 2017 8.0 
8 Tesla Driver for Linux x64 3 367.92 April 14, 2017 8.0 
® Tesla Driver for Linux x64 à 375.51 April 5, 2017 8.0 
® Tesla Driver for Linux x64 V3 375.39 February 15, 2017 8.0 
S Tesla Driver for Linux x64 $ 375.20 December 9, 2016 8.0 
9 Tesla Driver for Linux x64 恒 367.55 October 24, 2016 8.0 
i Tesla Driver for Linux x64 BETA 361.93.02 September 26, 2016 8.0 











图 1-17 选择 具体 的 版 本 号 
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(3) 在 DOWNLOAD 按钮 上 单 
如 图 1-18 所 示 。 








ri 
二 
zu 
3i 


5 键 , 在 弹出 的 快捷 菜单 中 选择 “复制 链接 地 址 ”命令 ， 

















TESLA DRIVER FOR LINUX X64 


Version: 384.66 
Release Date: — 2017.8.14 
Operating System: Linux 64-bit 
CUDA Toolkit: 8.0 
Language: English (Us) 
File Size: 97.77 MB 


| SUPPORTED PRODUCTS ADDITIONAL INFORMATION 








R 
Van for additional details on the med-high severity issues please review 
NV tion. 
* Foe — MEISTEN. Ito be corrupted. This issue affects only Tesla and Quadro products. 
Five can enter into a deadlock and eventually result in the GPU fallin 
pe an enter into a deadlock a ‘tually result in the GPU falling off 
the 
Thé — uaenuTm j [river packages (deb/rpm) for Tesla GPUs now include the end-user 
diag 
图 片 号 存 为 (V)- 
复制 图 片 (Y) 
mum 






设置 


TERN) 

















1-18 选择 “复制 链接 地 址 ”命令 





(4) 接着 登录 GPU 实例 。 使 用 wget 命令 ， 粘 贴 上 述 步 又 复 制 的 链接 地 址 下 载 安装 包 ， 如 
图 1-19 所 示 ; 或 在 本 地 系统 下 载 NVIDIA 安装 包 ， 上 传 到 GPU 实例 的 服务 器 。 


[ ]# wget htti ju .nuidia.com^content/DriverDownload-Mar 
ch2889/conf irmation.php?url-^XFree86/Linux-x86 64/384.66/NUIDIA-Linux-x86 64-384 


66 .run&lang-us&type-Tesla 





图 1-19 使 用 wget 命令 

(5) 对 安装 包 添 加 运行 权限 ， 例 如 对 文件 NVIDIA-Linux-x86_64-384.66.run 添加 运行 权限 : 
chmod *x NVIDIA-Linux-x86 64-384.66.run 

(6) 安装 当前 系统 对 应 的 gcc 和 kernel-devel &: 

sudo yum install -y gcc kernel-devel-xxx 
xxx 是 内 核 版 本 号 ， 可 以 通过 uname -r 查看 。 

CD 运行 驱动 安装 程序 : 

sudo /bin/bash ./NVIDIA-Linux-x86 64-384.66.run 其 他 参数 
按照 提示 进行 后 续 操作 。 

(8) 安装 完成 后 , 在 终端 输入 nvidia-smi, 如 果 有 类 似 如 图 1-20 所 示 的 GPU 信息 显示 出 来 ， 

说 明 驱 动 程序 安装 成 功 。 
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:~$ nvidia-smi 
pun Jan 7 07:28:08 2018 


| NVIDIA-SMI 375.66 Driver Version: 375.66 

LLL ILLI DEL 

| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC 

| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. 

MÀ. E: 
Tesla K80 off | 0000 | 9 
39C P8 32W / 14% | @MiB / 11439MiB | Default 


序 安 装 成 功 








(9) 接 下 来 ， 安 装 CUDA, Docker 以 及 NVIDIA-Docker， 并 获取 本 书 镜像 : 





+ 如 果 未 安装 CUDA 或 者 CUDR 版 本 低 于 7.5， 需 要 安装 CUDA 
wget https://developer.nvidia.com/compute/cuda/8.0/Prod2/ local_ 
installers/cuda-repo-ubuntu1604-8-0-1ocal-ga2 8.0.61-1 amd64-deb 
sudo dpkg -i cuda-repo-ubuntu1604-8-0-10ocal-ga2 8.0.61-1 amd64.deb 
sudo apt-get update 
sudo apt-get install cuda 


# 安装 Docker 

sudo apt-get update 

sudo apt-get install apt-transport-https ca-certificates 

sudo apt-key adv --keyserver hkp://p80.pool.sks-keyservers.net:80 
--recv-keys 58118E89F3A912897C070ADBF76221572C52609D 


sudo echo "deb https://apt.dockerproject.org/repo ubuntu-xenial main" » 
/etc/apt/sources.list.d/docker.list 

sudo apt-get update 

sudo apt-get install docker-engine 


# 安装 NVIDIA-Docker 
wget -P /tmp https://github.com/NVIDIA/nvidia-docker/releases/download/ 


v1.0.1/nvidia-docker 1.0.1-1 amd64.deb 
sudo dpkg -i /tmp/nvidia-docker*.deb && rm /tmp/nvidia-docker*.deb 


# 启动 Docker 服务 
systemctl start docker 
systemctl start nvidia-docker 


# 下 载 镜像 
sudo nvidia-docker pull hubq/dl4img 
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1.3.2 在 CentOS 7 下 配置 环境 


根据 腾讯 云 官方 文档 指导 ， 安 装 NVIDIA 显卡 驱动 。 这 里 的 方法 与 Ubuntu 16.04 相同 。 相 
关 文 档 指 导 请 参考 https//www.qcloud.com/document/product/560/8048 . 


# 安装 CUDA 

wget https://developer.nvidia.com/compute/cuda/8.0/Prod2/1ocal 
installers/cuda-repo-rhel7-8-0-10cal-ga2-8.0.61-1.x86 64-rpm 

rpm -i cuda-repo-rhel7-8-0-1ocal-ga2-8.0.61-1.x86 64-rpm 


yum install cuda 


# 安装 Docker 
yum install docker 


# 安装 NVIDIA-Docker 

wget https://github.com/NVIDIA/nvidia/docker/releases/download/v1.0.1/ 
nvidia-docker-1.0.1-1.x86 64.rpm 

rpm -i nvidia-docker-1.0.1-1.x86 64.rpm 


* 启动 Docker 服务 
systemctl start docker 


systemctl start nvidia-docker 


# 下 载 镜像 

EAE AE AE AE AE AE AE E AE AE E AE AE E FE AE AE AE AE AE AE AE AE AE AE AE E AE AE AE AE AE E AE E AE AEE AE EE AE AE AE AE E AE AE E AE EE AE E AE AE AE AE AE AE E EE E E 
## 如 果 使 用 腾讯 云 centos 7 GPU 服务 器 ， 这 里 建议 换 为 腾讯 云 Docker 源 。# 

i 需要 修改 Docker 配置 文件 /etc/sysconfig/docker， 添 加 : + 

## OPTIONS='--registry-mirror=https://mirror.ccs.tencentyun.com' * 
EAE AEE AE AE AE AE EAE AE AE AEE AE AE AE AEE AE AE AE AE AE AE AE E AE AE AE AE AE E AE E AE AEE AE AE E AE AE AE AEE AE AEE AE E AE AAE AE AE AE AE AE AE EEE E 
sudo nvidia-docker pull hubq/dl4img 


1.4 参考 文献 及 网 页 链接 





[1] Amazon Elastic Compute Cloud. Available at: http://docs.aws.amazon.com/zh cn/ 
AWSEC2/ latest/UserGuide/. 

[2] CUDA GPUs. NVIDIA Developer (2017). Available at: https://developer.nvidia.com/cuda- 
gpus. 

[3] Nvidia. NVIDIA/nvidia-docker. GitHub (2017). Available at: https://github.com/NVIDIA/ 


nvidia-docker. 
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完成 开发 环境 的 配置 后 ， 我 们 开始 介绍 基于 深度 学 习 的 图 像 处 理 技术 。 在 正式 讨论 本 部 分 
内 容 之 前 ， 先 给 不 熟悉 深度 学 习 基 本 概念 以 及 图 像 处 理 技术 的 读者 简要 介绍 一 些 必 备 的 基础 知 
识 。 本 章 主要 介绍 机 器 学 习 的 相关 概念 ， 其 中 前 几 节 讨论 机 器 学 习 与 深度 学 习 的 共性 ， 后 几 节 
讨论 深度 学 习 相 比 传统 机 器 学 习 方 法 做 了 哪些 提升 。 

此 外 ， 如 果 读 者 对 于 Python 基本 编程 以 及 科学 计算 相关 知识 缺乏 了 解 ， 阅 读本 章 代 码 感到 
理解 起 来 有 困难 ， 可 以 先 用 斯 坦 福 大 学 cs228 课程 中 的 一 个 快速 入 门 教程 《http://cs231n.github. 
io/ python-numpy-tutorial/) ， 短 时 间 内 熟悉 相关 概念 。 同 时 ， 景 略 集 智 网 站 上 也 提供 了 原版 教程 
的 中 文 翻译 Chttps://jizhi.im/blog/post/cs228-py) ， 供 读者 学 习 。 


2.1 人 工 智能 、 机 器 学 习 与 深度 学 习 


近年 来 , 深度 学 习 的 概念 十 分 火热 , 人 工 智 能 也 由 于 这 一 技术 的 兴起 吸引 了 越 来 越 多 的 关注 。 
我 们 将 结合 一 些 基本 的 用 例 ， 简 要 介绍 一 下 这 个 新 的 技术 。 








深度 学 习 技术 图 像 处 理 入 门 


首先 需要 明确 人 工 智能 、 机 器 学 习 以 及 深度 学 习 三 者 之 间 的 关系 ， 如 图 2-1 所 示 。 如 
NVIDIA 官网 文章 所 述 ， 人 工 智能 是 一 个 非常 大 的 概念 ， 而 机 器 学 习 只 是 人 工 智 能 的 一 种 实现 
方法 。 深度 学 习 同 样 也 是 一 种 实现 机 器 学 习 的 方法 ， 是 在 机 器 学 习 的 基础 上 建立 起 来 的 。 首先， 
从 字面 上 看 ， 二 者 都 是 在 “学 习 ”， 因 此 在 评价 深度 学 习 训练 出 的 模型 好 坏 时 ， 同 样 直接 来 源 
于 机 器 学 习 的 评价 方法 。 其 次 ， 深 度 学 习 最 基本 的 形式 是 深度 神经 网 络 ， 直 接 脱胎 于 机 器 学 习 
中 的 神经 网 络 模型 。 
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(图 片 来 源 : https://blogs.nvidia.com/blog/2016/07/29/whats-difference- 
artificial-intelligence-machine-learning-deep-learning-ai/ ) 


图 2-1 人 工 智能 、 机 器 学 习 以 及 深度 学 习 三 者 之 间 的 关系 


正 是 由 于 深度 学 习 直 接 脱胎 于 机 器 学 习 理 论 ， 因 此 本 书 将 首先 介绍 一 些 基本 的 机 器 学 习 知 
识 。 机 器 学 习 本 身 包含 了 很 多 内 容 ， 如 果 对 其 进行 简单 的 分 类 梳理 ， 可 以 归于 以 下 几 类 : 


e 非 监 督学 习 


。 监督 学 习 
> ”回归 问题 
> 分 类 问题 


单纯 讲 概念 ， 可 能 看 起 来 有 些 枯 燥 ， 我 们 不 妨 把 机 器 学 习 和 人 类 的 学 习 行 为 类 比 一 下 。 监 
督学 习 相 比 非 监督 学 习 最 大 的 区 别 是 ， 这 种 方法 有 明确 的 评价 指标 ， 这 种 指标 类 似 学 校 里 的 考 
试 成 绩 ， 我 们 可 以 简单 地 认为 考试 成 绩 高 ， 这 个 学 生 就 是 好 学 生 。 对 于 机 器 而 言 ， 就 是 机 器 训 
练 的 模型 在 给 定 的 数据 集中 ， 预 测 准 确 率 高 ， 这 个 模型 就 是 一 个 好 模型 。 因 此 我 们 不 妨 认 为 监 
督学 习 就 是 一 种 唯 分 数论 的 应 试 教育 方法 ， 参 见 表 2-1。 
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表 2-1 监督 模型 
应 试 教 育 监督 模型 
学 生 数学 模型 
卷子 数据 集 
考试 分 数 预测 准确 率 





有 应 试 教育 ， 就 有 素质 教育 。 素 质 教 育 并 非 没 有 评价 标准 ， 但 是 相 比 应 试 教育 要 宽松 很 多 ， 
在 考察 过 程 中 , 手 里 可 以 有 更 多 的 主观 因素 。 这 一 点 在 非 监督 学 习 中 同样 成 立 。 如 一 名 古话 所 言 ， 
“ 近 朱 者 赤 ， 近 墨 者 黑 ”， 要 评价 一 个 人 如 何 ， 就 看 他 平时 和 什么 样 的 人 在 一 起 。 非 监督 学 习 
中 的 各 种 聚 类 方法 ， 同 样 使 用 了 这 种 思想 ， 就 是 并 不 直接 评价 某 一 个 体 ， 而 是 看 个 体 之 间 的 接 
近 程 度 ， 将 众多 个 体 归 为 少数 几 个 群体 ， 再 基于 这 个 群体 的 特征 进行 简要 概括 。 

试卷 中 有 主观 题 和 客观 题 ， 我 们 用 来 类 比 的 监督 学 习 同样 可 以 分 为 这 两 种 。 我 们 知道 主观 
题 的 答案 ， 如 语文 阅读 、 政 治 历 史 问 答题 ， 是 不 要 求 跟 标 准 答案 完全 一 致 的 ， 其 评价 标准 也 是 
越 接近 越 好 ， 这 一 点 就 类 似 机 器 学 习 的 回归 问题 ， 比 如 用 模型 预测 房价 、 股 市 走势 ， 大 致 预测 
出 价格 趋势 就 非常 了 不 起 了 ， 不 可 能 圆 、 角 、 分 全 部 正确 才 认 为 预测 正确 ， 差 一 分 就 预测 错误 。 
而 简单 的 客观 题 ， 如 判断 题 、 单 项 选择 题 ， 只 有 固定 数目 选项 ， 必 须 和 标准 答案 完全 一 致 才 算 
正确 的 ， 这 一 点 类 似 于 机 器 学 习 的 分 类 问题 ， 比 如 预测 一 个 人 是 否 患 有 某 种 疾病 ， 有 就 是 有 ， 
没有 就 是 没有 。 

注意 ， 这 里 有 一 个 误区 ， 即 认为 素质 教育 优 于 应 试 教育 。 现 在 机 器 学 习 领域 中 的 吴 恩 达 等 
学 者 也 一 再 强调 非 监督 算法 的 重要 意义 ， 实 际 上 拿 到 一 个 学 习 任务 后 ， 具 体 使 用 哪 一 种 方式 去 
分 析 还 是 需要 考虑 应 用 场景 的 。 通 常 我 们 不 了 解 这 个 学 习 任务 的 目的 性 、 需 要 找 线 索 时 ， 会 用 
非 监 督 找 线索 ， 包 括 聚 类 、 降 维 方法 等 。 如 果 明 确 了 学 习 的 目的 性 ， 追 求 高 准确 率 ， 就 需要 使 
用 监督 学 习 的 方法 了 。 

由 于 本 书 是 入 门 读物 ， 并 且 希 望 给 读者 带 来 快速 上 手 的 体验 ， 因 此 我 们 将 在 接 下 来 的 过 程 
中 主要 介绍 监督 学 习 的 分 类 部 分 。 


2.2 训练 一 个 传统 的 机 器 学 习 模 型 


运用 机 器 学 习 方法 分 析 数据 、 建 立 预测 模型 本 身 是 一 个 非常 复杂 的 过 程 ， 很 难 在 较 短 的 篇 
幅 内 完全 说 清楚 ， 所 以 这 里 我 们 将 会 结合 一 个 简单 的 实战 案例 , 将 基本 概念 结合 代码 实现 出 来 。 
同时 ， 本 节 也 将 穿插 介绍 如 何 使 用 Python 的 数据 科学 套装 ， 如 表 2-2 所 示 。 
表 2-2 使 用 Python 数据 的 科学 套装 


Package 开发 环境 的 版 本 作 用 
Python 3.5.2 Python 主 程序 
Jupyter 1.0.0 了 Python 的 浏览 器 端 开 发 环境 
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( 续 表 ) 
Package 开发 环境 的 版 本 作 用 
Numpy 1.12.1 矩阵 计算 库 
Scipy 0.19.0 高 级 科学 计算 
Pandas 0.20.1 数据 结构 (类 似 SQL) 
Sklearn 0.18.1 机 器 学 习 
Matplotlib 2.0.1 基础 绘图 
Seaborn 0.7.1 高 级 绘图 








如 果 使 用 了 第 1 章 中 指定 的 开发 环境 ， 这 里 直接 使 用 就 好 ， 否 则 需要 注意 一 下 ， 版 本 号 的 
偏差 可 能 会 造成 程序 报告 警告 ,说 某 一 用 法 是 以 前 的 ， 未 来 版 本 会 抛弃 ， 也 有 可 能 会 直接 报错 。 
如 果 本 章 接 下 来 的 程序 提示 错误 ， 请 大 家 首先 确认 使 用 的 是 否 为 指定 的 开发 环境 以 及 正确 的 版 
本 号 。 


2.2.1 第 一 步 ， 观 察 数据 


我 们 这 里 使 用 sklearn 官方 提供 的 高 尾 花 分 类 数据 集 。 这 个 数据 集 最 初 是 埃 德 加 -安德森 从 加 
拿 大 加 斯 帕 半岛 上 的 萝 尾 属 花 休 中 提取 的 地 理 变 异 数据 ， 包 含 150 个 样本 ， 属 于 意 尾 属 下 的 三 
NER, MUSE (setosa)、 变 色 萝 尾 (versicolor) MEESE (virginica) 。 四 个 特征 
被 用 作 样 本 的 定量 分 析 ， 分 别 是 花 苯 〈Sepal) MEA (Peta) 的 长 度 和 宽度 。 这 个 案例 的 目的 
是 通过 建立 一 种 数学 模型 ， 尝 试 使 用 四 个 特征 去 预测 某 一 襄 尾 花 属 于 哪 一 个 亚 种 。 具 体 如 何 建 
立 这 种 模型 ， 接 下 来 我 们 将 会 逐步 讲解 。 

要 建立 模型 ， 首 先 需 要 观察 数据 ， 而 观察 数据 的 第 一 步 是 要 阅读 数据 相关 的 说 明文 档 ， 和 弄 
清楚 我 们 拿 到 的 数据 是 哪 一 种 具体 格式 。 虽 然 我 们 知道 了 数据 有 多 少 个 样本 、 多 少 种 特征 ， 但 
是 目前 还 不 清楚 数据 是 以 什么 格式 给 我 们 的 ， 是 文件 还 是 数据 库 ， 或 者 是 一 个 python 对 象 ， 
所 以 需要 去 sklearn 官网 查阅 说 明文 档 ， 地 址 是 http://scikit-learn.org/stable/modules/generated/ 


sklearn.datasets.load iris.html. 


文档 提 到 返回 的 对 象 如 下 : 
Returns: 
data : Bunch 
Dictionary-like object, the interesting attributes are: 'data', 
the data to learn, 'target', the classification labels, 'target 
names', the meaning of the labels, 'feature names', the meaning of 


the features, and 'DESCR', the full description of the dataset. 
(data, target) : tuple if return X y is True 
New in version 0.18. 
文档 信息 写 到 ， 这 是 一 个 Python 对 象 (object) ， 并 且 具 有 字典 〈dictionary) 的 特征 。 具 
体 的 调用 方法 如 下 : 
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from sklearn.datasets import load iris 


data = load iris() 


2.2.2 第 二 步 ， 预 览 数据 


既然 上 一 步 提 到 这 是 一 个 具有 字典 特征 的 对 象 ， 我 们 就 可 以 用 Python 字典 调用 的 方法 对 数 
据 有 一 个 总 体 的 预览 。 

这 里 首先 简单 介绍 Python 的 字典 。Python 主要 包括 列表 、 元 组 以 及 字典 这 几 种 较为 高 级 的 
数据 结构 ， 如 果 读 者 熟悉 C++， 其 实 就 是 C++ 标准 库 里 的 vector. set 以 及 unordered map. ^F 
典 结构 其 实 就 是 一 个 键 值 对 (unordered_map) ， 但 这 里 的 键 值 对 相 比 C++ 而 言 ， 用 起 来 相对 容 
易 一 些 ， 可 以 方便 地 指向 字符 串 ， 甚 至 列表 、 数 组 和 其 他 字典 : 


map abc = ( 
"a" : 0, 
EDU INI 2p 3], 
"c" : ("oec" : 4} 


) 
print (map abc["a"]) 
print (map abc["b"], map abc["b"] [1]) 


print (map abc["c"] ["cc"]) 


运行 结果 
fout 
0 
[15 2, 3] 2 
4 
可 以 使 用 for 循环 遍历 整个 字典 : 


for k in map abc: 
print("key:",k, "WMnvalue:", map abc[k]) 


value: [1, 2, 3] 


key: c 


value: ('cc': 4) 


同样 ， 也 来 遍历 我 们 的 数据 : 
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from sklearn import datasets 

data — datasets.load iris() 

for k in data: 
print ("4HHHHEHHEHHHEHENn HESSEN DHHRHHHEIHERHEHHEENn" 名 k) 
print (data[k]) 


data.data 就 是 需要 的 1504 的 输入 特征 矩阵 ， 四 个 特征 存在 data.feature names 里 。 分 类 
标签 在 data.target 中 ， 其 中 的 0、1、2 分 别 代 表 data.target names 里 面 的 setosa, versicolor 以 及 
virginica。 由 此 ， 我 们 完成 了 数据 的 基本 预览 。 

实际 上 ， 在 预览 阶段 还 有 很 多 问题 需要 思考 : 

e 不 同 分 类 的 样本 分 类 是 否 均匀 ? 

e 数据 是 否 受 到 极 值 、 缺 失 值 的 影响 ? 

e 能 否 不 建立 模型 就 看 出 三 者 的 分 类 关系 ? 

e ”能 否 对 样本 的 分 类 情况 进行 简单 的 预览 ? 

这 些 问题 可 以 用 很 简单 的 程序 回答 。 其 实 我 们 想 更 快 地 回答 这 些 问 题 ， 因 此 接 下 来 将 引入 
Python 数据 分 析 套 装 ， 用 pandas 对 数据 进行 类 似 SQL 的 合理 结构 化 ， 然 后 基于 可 视 化 分 析 库 
matplotlib 与 seaborn， 通 过 图 形 回答 这 些 问 题 。 

对 和 矩阵 格式 的 数据 进行 结构 化 处 理 ， 转 换 为 pandas 的 dataframe。 





df = pd.DataFrame (data.data) 


df.columns = data.feature names 


df['species'] = [ data['target names'][x] for x in data.target ] 
df.head() 


mE sepal length (cm) sepal width (cm) petal length (cm) PUTEM (cm) | Species | 


setosa 








setosa 





不 同 分 类 的 样本 分 类 是 否 均匀 ? 
对 species 分 组 计数 : 


df cnt = df['species'].value counts().reset index() 
df cnt 





结果 如 下 : 《注意 这 里 不 加 reset index 的 话 ， 将 不 会 返回 数据 框 的 形式 ， 不 方便 制图 。) 
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对 结果 做 图 : 
sns.barplot(data-df cnt, x-'index', y-'species') 


其 结果 如 图 2-2 所 示 。 











setosa versicolor virginica 
index 











图 2-2 分 组 计数 结果 做 图 效果 


数据 是 否 受到 极 值 、 缺 失 值 的 影响 ? 

极 值 、 缺失 值 会 影响 对 数据 的 整体 认识 , 对 模型 产生 干扰 , 因此, 我 们 在 正式 分 析 数 据 之 前 ， 
首先 应 该 关注 它们 会 产生 什么 样 的 影响 。 这 里 的 极 值 是 指 相 比 其 他 数字 而 言 ， 非 常 大 或 者 非常 
小 的 值 ， 又 称 为 离 群 值 ， 既 可 能 是 由 于 收集 阶段 的 错误 造成 的 ， 也 可 能 是 由 于 一 些 意外 因素 造 
成 的 。 极 值 会 对 数据 分 析 结 果 造 成 一 定 干扰 , 典型 的 例子 如 同 国家 统计 局 发 布 人 均 年 收入 数据 时 ， 
很 多 人 发 现 自己 “被 平均 ”， 因 此 对 于 极 值 ， 会 根据 实际 需求 选择 是 否 剔 除 。 

缺失 值 同样 也 会 有 影响 。 比 如 小 明 给 自己 量 体 温 ， 量 了 一 周 的 体温 值 : 


[m [ m- [m- | | Nn | RN | wx | A ] 


温 36.2 36.3 36.4 忘 测 了 36.3 36.2 36.4 








问 小 明 这 一 周 的 平均 体温 是 多 少 ? 这 种 情况 下 ， 真 实 的 平均 体温 我 们 是 不 知道 的 ， 因 为 不 
知道 小 明 周 四 的 体温 是 多 少 ， 所 以 整 周 的 平均 值 也 是 不 知道 的 : 
import numpy as np 


np temp — [36.2, 36.3, 36.4, np.nan, 36.3, 36.2, 36.4] 


np.mean(np temp) 
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遇 到 这 种 情况 ， 实 际 上 是 对 数据 的 一 种 浪费 ， 因 为 周 四 没有 收集 到 体温 数据 ， 这 一 周 其 他 


6 天 的 数据 就 失去 了 作用 。 在 大 规模 的 数据 中 ， 我 们 很 难保 证 所 有 数据 都 被 合理 地 收集 到 ， 此 
时 如 果 有 几 万 个 数据 ， 因 为 个 别 的 缺失 就 全 部 扔 掉 ， 这 种 浪费 就 更 加 明显 了 。 对 于 这 种 情况 ， 
通常 的 做 法 是 在 计算 的 情况 下 不 考虑 未 知 量 ， 或 者 是 用 平均 值 、 中 位 数 去 填补 未 知 值 。 


方法 1 不 考虑 周 四 


np temp = [36.2, 36.3, 36.4, np.nan, 36.3, 36.2, 36.4] 
np.nanmean (np temp) 


运行 结果 : 


# out 
36.3... 


方法 2 用 其 他 数字 平均 值 填补 缺失 值 后 计算 


np temp[3] = np.nanmean (np_temp) 
np.mean(np temp) 


运行 结果 : 


# out 
36:3. 


方法 3 用 数字 0 填补 缺失 值 后 计算 〈 大 错 特 错 ， 不 要 这 样 ) 


np temp[3] = 0 


np.mean(np temp) 


之 所 以 把 这 一 条 写 上 来 ， 是 因为 现实 中 真 的 有 人 会 用 0 直接 填补 缺失 值 。 对 这 种 情况 ， 不 


是 说 不 行 ， 很 多 时 候 其 实 可 以 用 0 填补 ， 比 如 统计 某 人 口 稀 少 地 区 的 各 种 汽车 销量 ， 如 果 某 一 
汽车 销量 缺失 ， 我 们 是 可 以 用 0 填补 的 ， 因 为 这 个 数字 可 能 真 的 很 小 ， 可 能 真 的 是 0， 以 至 于 
统计 人 员 收 集 数据 时 直接 忽略 了 这 种 汽车 。 但 小 明 周 三 的 体温 ， 实 在 不 太 像 是 0 度 ， 因 此 这 里 
不 可 以 用 0 来 填补 缺失 值 。 


介绍 完 极 值 与 缺失 值 将 会 带 来 的 问题 后 ， 我 们 想 知道 如 何 用 最 快 的 速度 判断 数据 里 面 是 否 


存在 这 两 种 情况 ， 最 简单 的 办 法 就 是 对 数据 框 执行 describe) 操作 : 
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df.describe() 


运行 结果 : 
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petal length (ci 





sepal length (cm) sepal width (cm) 








m) petal width (cm) 











150 150 150 











150 








3.054 3.758667 





5.843333 








1.198667 








0.433594 





0.828066 








0.763161 











这 里 的 极 值 Cmin/max). 看 起 来 并 不 明显 ， 平 均值 、 标 准 差 范 围 也 比较 接近 ， 并 且 不 存在 数 
据 缺 失 。 如 果 有 缺失 ， 最 后 一 行 会 单独 显示 缺失 了 几 个 值 ， 继 而 我 们 进一步 确认 这 四 个 特征 是 
否 为 正 态 分 布 。 这 种 检验 通常 使 用 QQ-Plot， 即 横 坐 标 是 标准 正 态 分 布 的 Quantile〈 如 图 2-3 所 



































E 态 分 布 ， 两 者 之 间 就 会 存在 











示 的 x 轴 ) ， 纵 坐标 是 样本 实际 分 布 的 Quantile， 如 果实 际 分 布 是 
线性 的 关系 。 





00 01 02 03 0.4 














2-3 横 坐 标 是 标准 正 态 分 布 的 Quantile 


对 我 们 的 四 个 特征 进行 正 态 分 布 检验 : 





from scipy import stats 


for i in range(4): 
name = data.feature names[i] 
ax = plt.subplot(2,2,i*41) 
Stats.probplot(df[name], plot-ax) 
ax.set title (name) 


运行 结果 如 图 2-4 所 示 。 
这 里 的 前 两 个 特征 可 以 认为 来 自 同一 个 正 态 分 布 ， 如 此 很 多 





以 成 立 ， 继 而 在 后 续 的 建 模 阶段 方便 我 们 使 用 很 多 有 效 的 算法 。 后 两 个 特征 更 像 是 两 条 线 中 间 





统计 假设 (如 t 检 验 ) 等 就 可 





断 开 了 ， 似 乎 是 来 自 两 个 正 态 分 布 。 这 种 情况 未 必 是 坏事 ， 如 果 某 个 分 类 种 类 完全 来 自 其 中 一 
个 正 态 分 布 ， 其 他 的 来 自 另 一 个 正 态 分 布 ， 那 么 这 个 特征 就 成 了 一 个 非常 具有 区 分 度 的 特征 ， 














需要 我 们 重点 关注 。 
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图 2-4 四 个 特征 的 正 态 分 布 





因此 下 一 步 的 目标 就 是 求 具体 每 个 分 类 的 平均 值 、 方 差 ， 如 何 做 呢 ? 这 里 当然 可 以 提取 不 
同 分 类 对 应 的 子 矩 阵 ， 然 后 计算 子 矩 阵 的 平均 值 、 方 差 ， 读 者 可 以 自行 尝试 。 我 们 这 里 提供 另 
一 种 基于 透视 表 (pivot table) 的 方法 。 首 先 ， 对 于 150X4 的 二 维 矩阵 特征 ， 将 其 变 为 600X1 
的 一 维 矩 阵 特征 : 


pd.melt(df, id vars-['species']) 























运行 结果 

* out 
0 
1 
2 
3 setosa sepal length (cm) 
4 setosa sepal length (cm) 
5 setosa sepal length (cm) 
6 setosa sepal length (cm) 
T setosa sepal length (cm) 
8 setosa sepal length (cm) 44 
9 setosa sepal length (cm) 49 








然后 将 这 个 一 维和 矩阵 特征 通过 透视 表 操 作 ， 针 对 每 个 特征 值 ， 以 分 类 结果 为 行 名 称 ， 求 它 
们 的 平均 值 以 及 方差 : 
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pd.melt(df, id vars-['species']). AN 
pivot table(index-['species'], columns-['variable'], 


aggfunc-[np.mean, np.var]) 


运行 结果 : 


# out: 








Variable 





C 
| speces | [| | [ ] |] 
914518 


我 们 关注 petal length 和 petal width 两 个 特征 ， 发 现 二 者 在 setosa 这 个 种 类 中 要 小 于 
其 他 两 个 种 类 ， 并 且 setosa 与 versicolor 之 间 的 距离 〈4.260-1.464) 也 远 高 于 三 倍 方差 值 
(0.0301X 340.2208 X 3) ， 正 好 对 应 在 图 2-4 中 的 两 个 间隔 较 远 的 正 态 分 布 。 
继而 我 们 以 第 三 个 特征 为 例 ， 对 其 不 同 组 分 别 进行 正 态 分 布 检验 : 


m © 
.2 


cm 











fig = plt.figure (figsize- (12,4)) 


for i in range(3): 
name = data.target names[i] 
ax = plt.subplot(1,3,i-*1) 
stats.probplot (df[df['species']--name] [data.feature names[2]], plot-ax) 


ax.set title (name) 

















j T 
其 结果 如 图 2-5 所 示 。 
setosa versicolor virginica 
.. 
. 
18 50 . 
g'e l H 
El E 3 
H 14 H 40 Í 
R È P1 
$ $ 5 
12 35 
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1o|e ao|e 
3 9$ 1 2 2 5 9 4 2 y 3 9 1 2 
Theoretical quantiles Theoretical quantiles Theoretical quantiles 


2-5 第 三 个 特征 的 正 态 分 布 
由 此 可 见 ， 该 特征 在 不 同 组 内 部 是 符合 正 态 分 布 的 。 


23 


深度 学 习 技术 图 像 处 理 入 门 


能 不 能 不 建立 模型 ， 就 看 出 三 者 的 分 类 关系 ? 

首先 ， 这 里 说 一 下 “不 建立 模型 ”的 逻辑 是 什么 。 不 建立 模型 就 看 出 分 类 关系 ， 是 因为 有 
时 候 分 类 的 定义 很 简单 ,用 复杂 模型 多 少 有 点 “ 杀 鸡 用 牛刀 ”的 意味 。 比 如 判断 一 个 人 是 否 酒 驾 ， 
就 一 个 指标 ， 每 百 毫 升 血液 里 酒精 含量 是 否 大 于 20mg， 大 于 就 是 酒 驾 ， 否 则 不 是 ， 就 是 一 个 简 
单 的 下 …else 判断 关系 ， 不 需要 复杂 的 模型 。 实 际 工作 中 ， 如 果 找 到 了 这 种 简单 的 ff…else 标准 ， 
其 实 是 件 好 事 ， 首 先 我 们 不 需要 费时 费力 地 挖 特征 、 训 练 模型 ， 其 次 得 出 的 结论 也 很 简单 ， 不 
涉及 复杂 的 组 合 ， 也 利于 被 人 接受 。 

我 们 的 刘 尾 花 数 据 集 是 否 存在 这 种 简单 标准 ? 可 以 借助 简单 的 可 视 化 技术 来 看 一 眼 : 


sns.pairplot (df, 


hue-"species") 


运行 结果 如 图 2-6 所 示 。 
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图 2-6 营 尾 花 数据 集 的 可 视 化 


这 个 图 包含 了 两 层 信息 : 第 一 层 是 单一 值 是 否 足以 分 开 不 同 的 分 类 结果 ， 就 是 对 角 线 上 的 
四 个 分 布 图 ， 第 二 层 是 数据 间 的 两 两 组 合 是 否 足以 分 开 不 同 的 分 类 结果 ， 就 是 非 对 角 线 上 的 散 
点 图 ， 其 中 左下 角 与 右上 角 部 分 x - y 坐标 轴 是 对 称 的 。 
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对 于 第 一 层 信息 ， 我 们 注意 到 第 三 行 、 第 三 列 的 点 图 中 setosa 与 其 他 两 类 在 petal length 这 
个 特征 上 是 可 以 完全 区 分 开 的 ， 即 petal length 小 于 2 的 是 setosa、 大 于 2 的 是 其 他 两 种 分 类 。 
另外 两 个 种 类 区 分 得 并 不 好 ， 有 很 多 的 重 又 部 分 。 

对 于 第 二 层 信息 ， 根 据点 图 判断 的 话 ， 所 有 第 三 行 、 第 三 列 的 点 图 中 ，setosa 与 其 他 两 个 
种 类 也 是 可 以 完全 区 分 开 的 。 因 为 这 些 图 是 特征 的 两 两 组 合 ， 这 些 组 合 都 使 用 第 一 层 信 息 就 可 
以 明确 区 分 setosa 的 特征 一 一 petal length， 自 然 在 两 两 组 合 中 也 可 以 区 分 。 通 过 两 两 组 合 ， 另 
外 两 种 也 并 非 完全 分 开 ， 但 是 重 又 部 分 的 交集 有 多 有 少 一 一 sepal 的 长 宽 重合 得 多 ，petal 的 长 宽 
重合 就 少 得 多 。 

这 时 候 读者 会 有 新 的 问题 了 一 一 既然 两 个 两 个 组 合 ， 看 起 来 后 两 类 重生 的 面积 少 了 很 多 ， 
那么 特征 如 果 进 行 三 个 组 合 ， 画 三 维 立 体 图 重 又 的 是 否 会 更 少 ? 这 里 不 太 好 画 三 维 的 点 图 ， 读 
者 可 以 画 四 个 三 维 的 图 看 一 眼 。 这 里 之 所 以 不 画 并 非 是 笔者 懒 ， 而 是 既然 可 以 三 个 特征 组 合 ， 
就 可 以 四 个 一 起 组 合 ， 这 种 情况 下 就 没 法 画图 了 ， 毕 竟 我 们 生活 在 一 个 三 维 的 宏观 世界 ， 要 表 
示 一 个 四 维 的 坐标 系 难度 其 实 挺 大 的 。 
因此 ,我 们 这 里 的 结论 是 ， 如 果 想 找 出 setosa， 那么 不 用 建 模 也 可 以 得 出 结论 ， 花 办 (petal) 
长 度 小 于 2cm 的 就 是 。 如 果 想 找 出 其 他 两 种 ， 结 论 就 不 是 肯定 的 了 。 

当然 ， 对 于 这 种 直观 方法 的 局 限 性 ， 读 者 应 该 也 发 现 了 ， 就 是 特征 两 两 组 合 会 造成 维度 灾 
难 。 我 们 这 里 是 四 个 特征 ， 两 两 组 合 就 会 得 到 4X3 二 2 = 6 种 不 同 的 组 合 方式 。 如 果 是 几 百 个 特 
征 ， 就 是 上 万 种 组 合 方式 ， 几 万 特征 就 是 上 亿 种 组 合 方式 。 这 种 情况 下 ， 要 是 再 画 这 种 组 合 图 ， 
人 工 找 出 特征 组 合 就 不 现实 了 。 我 们 需要 计算 机 帮助 组 合 特征 ， 而 计算 机 组 合 特征 的 方法 就 是 
借助 机 器 学 习 模型 。 

对 于 各 种 机 器 学 习 模型 ， 本 书 的 篇 幅 主要 是 介绍 监督 学 习 方 法 , 就 是 之 前 提 到 的 应 试 教育 。 
在 此 之 前 , 我 们 先 简 单 介绍 下 非 监 督学 习 找 组 合 特征 的 方法 , 并 且 基 于 非 监督 学 习 的 特征 组 合 ， 
对 数据 进行 一 个 分 类 结果 的 预览 。 


能 否 对 样本 的 分 类 情况 进行 简单 的 预览 ? 

上 文 提 到 ， 直 接 将 特征 以 两 两 组 合 的 方式 画 在 二 维 平面 上 ， 在 特征 过 多 时 ， 会 由 于 组 合 过 
多 使 得 这 种 方法 难以 发 挥 作 用 。 这 时 能 否 直接 在 二 维 平面 上 看 到 四 维 的 分 布 情况 呢 ? 可 以 通过 
降 维 做 到 。 

提 到 “ 降 维 ”， 最 经 典 的 一 段 文学 描述 莫 过 于 《三 体 》 这 部 科幻 小 说 ， 在 最 后 阶段 描写 的 
外 星人 使 用 “二 向 销 ”， 对 太阳 系 进行 的 一 场 降 维 打击 : 


TE AETLIUACSAE E. TURI LAETI HUS EHE, URAR AMRED E 
AE, XE BEBE PIPER HEIL ES AA- PEMUKA E E, TAREA H A ERI, 
TERI DU MGEAR E SÉETEBEER P, =A EREN BECHER WIN EDU 
BHEIJ EPI. E, UE FZP CAETERUM ZEKE HE A KKR REER HRR, 
RAIA BII BAPI FEHR, BA E TRR- 
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这 是 一 段 非常 具有 启发 意义 的 描述 。 因 为 其 实 降 维 打击 可 以 很 容易 ， 外 星人 完全 可 以 用 一 
个 巨大 的 苍蝇 拍 直接 拍 扁 整 个 太阳 系 ， 不 过 这 样 就 做 不 到 “其 所 有 的 内 部 结构 都 在 平面 上 排列 
出 来 ， 没 有 任何 隐藏 ”。 可 见 降 维 十 分 容易 ， 降 维 同时 尽 可 能 地 保留 原 有 的 结构 难 ， 例 如 前 面 
的 seaborn.pairplot 实际 上 就 是 进行 了 12 次 四 维 到 二 维 的 降 维 ， 每 次 都 用 了 其 中 的 两 组 特征 ， 然 
后 扔 掉 了 剩 下 的 两 组 。 于 是 我 们 就 思考 如 何 尽 可 能 多 地 在 二 维 平面 保留 高 维特 征 背 后 的 信息 。 

主 成 分 分 析 (PCA) 是 其 中 的 一 种 思路 。PCA 有 两 种 通俗 易 懂 的 解释 ， 一 是 最 大 化 投影 后 
数据 的 方差 ， 即 让 数据 在 投影 到 的 平面 上 更 分 散 ; 二 是 最 小 化 投影 造成 的 损失 ， 即 让 数据 到 投 
影 平面 的 垂直 距离 最 小 。 更 通俗 地 说 ， 就 是 PCA 实际 上 是 在 寻找 一 个 能 把 苍蝇 在 墙 上 拍 得 最 扁 、 
展开 面积 最 大 的 一 种 角度 。 这 种 降 维 方法 与 二 向 箱 给 太阳 系 降 维 时 使 用 的 展示 所 有 细节 的 黑 科 
技 降 维 方法 当然 没 法 比 ， 但 也 非常 有 用 ， 可 以 将 其 运用 在 芝 尾 花 的 数据 集 上 。 

这 种 算法 运用 在 营 尾 花 数据 集 上 的 效果 如 下 。 需 要 读者 的 注意 是 ， 为 了 方便 展示 ， 这 里 用 
了 高 尾 花 数据 集 的 前 三 个 特征 进行 主 成 分 分 析 ， 实 际 运用 中 需要 展示 全 部 特征 。 

from sklearn.decomposition import PCA 

pca = PCA() 


df sub = df[data.feature names[0:3]] 
pca.fit(df sub) 


pca result - pca.transform(df sub) 

fig = plt.figure (figsize- (4,4)) 

ax = fig.add subplot (111) 

ax.scatter(pca result[:, 0], pca result[:, 1], c-data.target, cmap-plt. 
cm.Set3) 


其 运行 结果 如 图 2-7 所 示 。 








图 2-7 前 三 个 特征 进行 主 成 分 分 析 





如 果 和 希望 知道 投影 平面 是 什么 ， 可 以 通过 协 方差 矩阵 得 到 。 
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from mpl toolkits.mplot3d import Axes3D 


# 这 两 个 参数 用 于 调整 投影 平面 的 大 小 
* 参考 sklearn 范例 http://scikit-learn.org/stable/auto examples/ 
decomposition/plot pca 3d.html 


plane show size ratio — 5 

plane show shift = df sub.mean().values 

pca score = pca.explained variance ratio 

V — pca.components 

1 pca axis = V.T * plane show size ratio 

1 pca plane = [] 

for pca axis in 1 pca axis: 

1 pca plane.append(np.r [pca axis[:2], - pca axis[1::-1]]. 

reshape (2,2)) 


fig = plt.figure (figsize- (4,4)) 
* 画 点 
ax = Axes3D(fig, rect-[0, 0, .95, 1], elev-150, azim--34 ) 
ax.scatter(df sub.values[:,0], df sub.values[:,1],df sub.values[:,2], '.', 
c-data.target, cmap-plt.cm.Set3) 


+ 根据 pca 结果 旋转 3d 图 形 ， 使 之 达到 " 最 大 化 投影 后 数据 的 方差 ， 即 让 数据 在 投影 到 的 平面 
上 更 分 散 ， 二 是 最 小 化 投影 造成 的 损失 ， 即 让 数据 到 投影 平面 的 垂直 距离 最 小 " 的 效果 
ax.plot surface(l pca plane[0]-*plane show shift[0], 
1 pca plane[1]*plane show shift[1], 
1 pca plane[2]*plane show shift[2], alpha-0.1) 


其 运行 结果 如 图 2-8 所 示 。 





图 2-8 通过 协 方差 矩阵 得 到 投影 平面 
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由 此 可 见 ， 这 里 找到 的 投影 平面 是 数据 展开 效果 非常 好 的 一 个 平面 ,符合 PCA 定义 的 预期 。 

最 后 ， 请 读者 思考 PCA 的 定义 。 首 先 ， 投 影 平面 是 否 必须 是 一 个 平面 ? 能 否 是 一 个 曲 
面 ， 比 如 广义 相对 论 里 那 种 扭曲 的 空间 。 其 次 ， 这 里 “最 大 化 投影 后 数据 的 方差 ”的 目标 ， 
是 否 可 以 修改 ? 答案 当然 是 肯定 的 ， 这 部 分 的 详细 介绍 请 进一步 学 习 “ 流 形 学 习 ” (manifold 
learning) 相关 的 内 容 。 这 些 方法 在 我 们 的 数据 集 上 的 简单 使 用 效果 如 下 : 


from sklearn.manifold import Isomap, MDS, SpectralEmbedding 
n components = 2 

n neighbors - 10 

X = df.drop(['species'], axis-1) 

color = data.target 


fig = plt.figure(figsize- (12, 4)) 


Y = Isomap(n neighbors, n components).fit transform(X) 
ax = fig.add subplot (131) 
ax.scatter(Y[:, 0], Y[:, 1], c-color, cmap-plt.cm.Set3) 


ax.set title("Isomap") 


Y = MDS(n components, max iter-100, n init-1).fit transform(X) 
ax = fig.add subplot (132) 

ax.scatter(Y[:, 0], Y[:, 1], c-color, cmap-plt.cm.Set3) 
ax.set title("MDS") 


Y = SpectralEmbedding (n components-n components,n neighbors-n 
neighbors).fit transform(X) 

ax = fig.add subplot (133) 

ax.scatter(Y[:, 0], Y[:, 1], c-color, cmap-plt.cm.Set3) 


ax.set title("Isomap") 


其 运行 结果 如 图 2-9 所 示 。 


lsomap MDS lsomap 
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2.3 数据 挖掘 与 训练 模型 
我 们 在 前 面 预览 环节 中 ， 通 过 特征 两 两 组 合 展示 ， 以 及 主 成 分 降 维 的 方法 ， 已 经 对 数据 有 


了 初步 的 认识 。 但 是 这 种 认识 ， 不 等 于 明确 的 分 类 标准 ， 真 正 用 于 实战 中 的 模型 ， 还 是 需要 使 
用 监督 学 习 方 法 。 接 下 来 的 内 容 ， 将 介绍 监督 学 习 的 一 个 基本 流程 。 





2.3.1 第 一 步 ， 准 备 数据 


这 一 部 分 包括 两 部 分 的 内 容 ， 一 是 将 所 有 数据 划分 训练 集 、 验 证 集 与 测试 集 ， 二 是 进行 数 
据 的 标准 化 。 

首先 解释 一 些 名 词 ， 即 什么 是 训练 集 、 验 证 集 与 测试 集 。 如 同 前 面 提 到 的 ， 监 督学 习 就 是 
一 种 唯 分 数论 的 应 试 教育 ， 准 确 率 越 高 越 好 ， 正 如 学 生 考试 成 绩 越 高 越 好 一 样 。 那 么 提高 应 试 
教育 考试 成 绩 的 方法 ， 同 样 也 可 以 用 在 监督 学 习 上 ， 那 就 是 题 海战 术 。 在 题 海战 术 的 过 程 中 
老师 会 拿 一 堆 卷子 给 学 生 做 ， 有 的 作为 家 庭 作 业 ， 有 的 作为 阶段 性 考试 ， 如 周 考 、 月 考 等 ， 最 
后 留 一 些 题目 用 在 期 末 考 试 中 ， 参 见 表 2-3. 

我 们 不 妨 把 机 器 学 习 模型 理解 成 做 题 的 学 生 。 平 时 学 生 做 作业 时 是 允许 参考 题目 答案 的 ， 
这 也 有 助 于 学 生理 解 解 题 思路 ， 而 有 监督 的 机 器 学 习 模 型 在 训练 过 程 中 ， 同 样 需要 一 份 “题目 ” 
和 “答案 ”， 比 如 蒿 尾 花 数据 集中 ，150 个 样本 就 相当 于 150 个 考题 ， 每 个 题目 给 出 四 个 特征 ， 
要 模型 预测 分 类 结果 ， 参 考 答案 这 里 也 一 并 给 出 ， 让 模型 在 训练 阶段 中 不 断 地 “对 答案 ”， 训 
练 高 分 模型 。 

当然 ， 这 样 做 有 一 个 问题 ， 学 生 如 果 直 接 抄 答 案 ， 作 业 会 完成 得 又 快 又 好 ， 如 何 让 这 部 分 
学 生 现行 ? 考试 ， 考 试题 不 附 有 参考 答案 ， 抄 作业 的 就 现行 了 ， 所 以 老师 会 不 断 地 进行 小 范围 
阶段 性 考试 ， 检 验 学 生 的 学 习 效 果 ; 有 监督 的 机 器 学 习 也 是 一 样 ， 会 使 用 验证 集 检验 学 生 的 学 
习 效 果 ， 确 认 模 型 对 于 未 知 数据 也 有 很 好 的 表现 。 

最 后 ， 阶 段 测试 考 得 再 好 ， 期 末 考 试 或 者 高 考 这 样 的 大 型 考试 没 考 好 也 没有 用 。 这 种 大 型 
考试 不 是 给 学 生来 学 习 的， 而 是 用 来 排名 比较 的 ; 机 器 学 习 最 终 的 模型 好 不 好 ， 也 需要 看 它 在 
测试 集 上 的 表现 ， 抛 开 其 他 一 切 因 素 ，99.95% 的 准确 率 就 是 比 99.94% 的 准确 率 要 好 。 


表 2-3 将 机 器 学 习 模型 理解 为 做 题 的 学 生 











家 庭 作 业 
阶段 考试 


训练 集 (Training Set) 
验证 集 

(Validation Set) 
测试 集 (Testing Set) 


同时 有 题目 和 答案 ， 可 以 用 来 优化 模型 
看 题目 对 答案 ， 不 参与 模型 训练 ， 只 用 来 检验 模型 准确 率 ， 进 
而 指导 人 工 的 调 参 优化 

看 题目 给 结果 ， 给 模型 最 终 打分 ， 是 不 同 模型 好 坏 排名 的 依据 














期 末 考 试 





通常 情况 下 ， 数 据 的 所 有 者 在 拿 到 完整 数据 后 会 进行 第 一 次 划分 ， 分 出 初步 训练 集 以 及 测 
试 集 ， 将 初步 训练 集 的 数据 和 结果 以 及 测试 集 的 数据 交 给 数据 科学 家 ， 然 后 自己 留 下 测试 集 的 
分 类 结果 ， 将 用 于 评价 不 同 数据 科学 家 、 不 同 模型 提交 的 准确 率 。 数 据 科 学 家 拿 到 初步 训练 集 


29 


深度 学 习 技术 图 像 处 理 入 门 


后 进行 第 二 次 划分 ， 分 出 训练 集 以 及 验证 集 ， 用 于 训练 模型 以 及 对 模型 进行 自我 评价 。 
我 们 以 题 海战 术 为 例 ， 让 大 家 更 容易 理解 数据 划分 的 目的 ， 继 而 在 收集 数据 、 划 分 数据 时 
要 做 到 符合 以 下 常识 : 


COD 题目 和 答案 要 有 关系 。 同 样 ， 收 集 到 的 数据 特征 也 必须 和 数据 要 预测 的 东西 有 关系 。 
当然 ， 这 里 并 不 要 求 所 有 数据 都 有 关系 ， 可 以 有 元 余 ， 也 可 以 有 干扰 项 。 确 认 这 一 点 的 一 种 简 
单方 法 是 ， 将 这 些 数据 给 这 个 领域 的 人 类 专家 ， 如 果 他 可 以 对 结果 做 出 判断 ， 那 么 机 器 就 可 以 。 

(2) 合理 划分 作业 和 测试 的 比例 。 比 如 做 单 选 题 ， 如 果 只 选 ABCD 后 对 答案 ， 不 思考 背 
后 的 原因 ， 可 能 做 一 份 卷子 和 做 一 百 份 卷子 没有 什么 区 别 ， 答 案 对 多 了 还 可 能 会 得 出 “三 长 一 
短 选 最 长 ”这 种 结论 。 同 样 ， 只 做 作业 不 考试 ， 可 能 会 在 学 习 方法 上 产生 方向 性 的 错误 。 机 器 
学 习 也 一 样 ， 手 里 拿 到 一 些 数据 之 后 ， 不 妨 将 70% 拿 来 作为 训练 集 〈 家 庭 作业 ) ，30% ERE 
为 验证 集 (小 测 ) 。 题 海战 术 的 题目 ， 要 尽量 保证 不 同 题 型 在 作业 和 考试 中 一 致 ， 同 样 ， 不 同 
种 类 的 数据 ， 在 训练 集 验 证 集中 的 比例 也 应 当 保持 一 致 。 

(3) 避免 题目 泄露 。 测 试 集中 的 数据 不 应 出 现在 训练 集 和 验证 集中 。 


数据 科学 性 除了 需要 合理 进行 数据 集 的 划分 之 外 , 还 需要 对 数据 进行 标准 化 操作 。 具 体 而 言 ， 
就 是 很 多 样本 通过 减 平 均值 、 除 标准 差 的 方法 将 数据 变 成 标准 正 态 分 布 。 这 种 做 法 的 主要 原因 是 ， 
在 训练 数据 的 过 程 中 ， 模 型 的 参数 会 不 断 调整 ， 而 调整 过 程 中 ， 同 样 调整 100， 如 果 特 征 A 的 
平均 值 是 1， 这 个 调整 幅度 就 会 显得 过 大 ， 而 对 于 平均 值 是 10000 的 特征 B 而 言 ， 这 个 调整 幅 
度 就 会 显得 过 小 ， 模 型 会 浪费 大 量 时 间 去 适应 不 同 特征 的 分 布 ， 从 而 影响 训练 的 收敛 速度 。 因 
此 如 果 这 里 统一 成 平均 值 是 0、 方 差 为 1 的 标准 正 态 分 布 , 会 减 小 训练 开销 , 得 到 更 好 的 训练 结果 。 
这 一 点 在 深度 学 习 图 像 处 理 中 尤为 关键 ， 因 为 图 像 的 像素 值 大 小 是 0-255， 如 果 直 接 使 用 则 距 
离 计 算 机 喜欢 的 标准 正 态 分 布 有 些 差 距 ， 所 以 通常 会 将 像素 范围 调整 在 [-1, 1] 之 间 ， 或 者 直接 
处 理 成 标准 正 态 分 布 。 

这 里 需要 注意 ， 在 实际 处 理 过 程 中 ， 初 学 者 容易 忽略 的 一 点 是 对 训练 集 、 验 证 集 、 测 试 集 
分 别 计算 不 同 的 平均 值 与 标准 差 ， 然 后 分 别 减 平均 值 除 标准 差 。 这 里 应 该 统一 减 去 训练 集 的 平 
均值 和 标准 差 ， 因 为 首先 我 们 可 以 认为 是 从 训练 集中 估计 了 整体 分 布 的 特点 ， 其 次 这 样 做 也 避 
兔 了 引入 更 多 验证 数据 后 平均 值 标准 差 变 化 造成 的 影响 。 

最 后 我 们 放 上 sklearn 在 这 一 部 分 的 用 法 : 


from sklearn.model selection import train test split 


from sklearn.preprocessing import StandardScaler 


+ df 作为 初步 训练 集 ， 划 分 sos 作为 训练 集 、20% 作为 验证 集 


df train, df val = train test split(df, train size-0.8, random state-0) 


+ 提取 特征 ， 这 里 是 将 分 类 结果 舍弃 
X train = df train.drop(['species'], axis-1) 
X val = df val.drop(['species'], axis-1) 


# 提取 分 类 结果 
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Y train = df train['species'] 


Y val = df val['species"'] 


+ 设 定 分 布 x_scaler， 用 训练 集 估计 (fit) 分 布 ， 然 后 对 验证 集 进行 转换 (transform) 

X scaler = StandardScaler() 

X trainT = X scaler.fit transform(X train) 

X valT = X scaler.transform(X val) 

# 这 里 将 保证 训练 集 是 标准 正 态 分 布 ， 验 证 集 不 一 定 满足 这 个 条 件 ， 但 不 会 差 很 多 

print(X trainT.mean(axis-0), X trainT.var(axis-0)) 

# [ 0.00000000e*00 -7.49863135e-16 4.25585493e-16 1.22124533e-16] 
| mg] 

print(X valT.mean(axis-0), X valT.var(axis-0)) 

* [-0.22139933 0.00775008 -0.16081079 -0.20798778] [ 0.70916187 
1.04757042 0.87342285 0.8028885 ] 


2.8.2 第 二 步 ， 挖 掘 数据 特征 


特征 工程 是 整个 建 模 过 程 的 重 中 之 重 ， 通 常 建立 一 个 数学 模型 ， 70% 以 上 的 时 间 都 是 投入 
在 数据 挖掘 环节 中 的 。 

我 们 挖掘 特征 的 原因 是 为 了 让 计算 机 可 以 更 好 地 理解 数据 。 要 想 让 计算 机 理解 数据 ， 数 据 
科学 家 就 需要 首先 理解 数据 。 这 种 理解 ， 在 实际 运用 的 过 程 中 是 离 不 开具 体 业 务 罗 辑 支持 的 。 
例如 ， 医 学 领域 的 统计 学 家 统计 了 各 种 疗法 对 降低 血糖 的 效果 ， 和 希望 建立 一 个 推荐 高 血糖 治疗 
方法 的 模型 ， 最 后 发 现 打 胰岛 素 见效 快 、 效 果 好 。 而 在 实际 的 医学 临床 实践 中 ， 打 胰岛 素 是 最 
迫不得已 的 一 种 治疗 方法 ， 如 果 有 更 好 的 选择 ， 医 生 绝对 不 会 推荐 这 种 方法 。 因 此 ， 虽 然 现 阶 
段 人 工 智能 不 断 地 在 各 个 领域 取得 很 好 的 表现 ， 但 是 如 果 想 要 在 复杂 的 应 用 场景 落地 ， 还 是 需 
要 有 人 类 专家 的 支持 与 帮助 。 

正 是 由 于 这 一 部 分 内 容 涉及 面 太 广 ， 不 属于 入 门 内 容 ， 并 且 我 们 后 文 的 深度 学 习 部 分 主要 
强调 的 是 用 深度 神经 网 络 自动 挖掘 特征 ， 因 此 这 部 分 内 容 将 用 最 简单 的 例子 讲 一 讲 。 

在 二 维 平面 上 以 原点 为 圆心 ， 在 两 个 圆 环 的 范围 分 别 随机 生成 与 原点 距离 不 同 的 两 组 点 。 
其 中 里 面 圆 环 上 的 点 是 第 二 组 ， 外 面 圆 环 的 点 是 第 一 组 。 我 们 看 看 如 何 挖 出 一 个 简单 的 、 线 性 
可 分 的 特征 来 区 分 这 两 组 点 : 





from sklearn.utils import shuffle 

import matplotlib as mpl 

from cycler import cycler 

mpl.rcParams['axes.prop cycle'] = cycler(color-'rb') 
np.random.seed(42) 

pseudoNuml = 300 

PseudoNum2 = 300 

np phol = 4.5 + np.random.rand (pseudoNuml)*2 
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np pho2 = 0.5 + np.random.rand (pseudoNum?2) *2 
np thetal 


np.random.rand(pseudoNuml)*360 / 2*np.pi 
np theta2 = np.random.rand(pseudoNum2)*360 / 2*np.pi 


np xl = np phol * np.cos(np thetal) 
np yl = np phol * np.sin(np thetal) 
np x2 — np pho2 * np.cos(np theta2) 
np y2 = np pho2 * np.sin(np theta2) 


pd circ = shuffle (pd.DataFrame(í 
"X" : list(np x1)+list (np x2), 
"Y" : list(np yl)-*list(np y2), 
"label" : ["Classl" for x in range(pseudoNum1)] + ["Class2" for x in 
range (pseudoNum2) ] 
}), random state-0).reset index().drop(['index'],axis-1) 
pd circ0 = pd circ.copy() 
pd circ.head() 


Tv Tan 


0.596878 | -0.30041 


| 1 | 5112182 | -0.49413 


| 2 | -3.34097 | 3.760705 
| 3 | -1.54582 | 0.033936 
| 4 | -os4614 | 4438461 





看 图 应 该 更 加 直观 : 


for sub in ["Classl", "Class2"]: 
pd sub - pd circ[pd circ['label']--sub] 
plt.plot(pd sub["X"], pd sub["Y"], ".", label-sub) 


plt.legend() 


其 结果 如 图 2-10 所 示 。 

对 特征 组 合 做 图 发 现 ， 如 果 使 用 单一 特征 的 
话 ， 二 者 是 混合 在 一 起 的 。 两 个 特征 直接 进行 组 
合 的 话 ， 二 者 之 间 仍 然 线性 不 可 分 一 一 两 个 分 类 
被 一 个 圆 形 隔 开 了 ， 一 条 线性 的 直线 切 不 开 两 者 。 


Classi 
Class2 





sns.pairplot(pd circ, hue-"label") -4 





其 运行 结果 如 图 2-11 所 示 。 = 


-6 -4 





图 2-10 查看 分 布点 


32 





382 3€ 温 故 知 新 一 机 器 学 习 基 础 知识 


"abel 
© Cass2 
© Cassl 








图 2-11 运行 结果 


这 时 可 以 手动 进行 一 些 特征 工程 。 简单 试 一 下 加 法 和 乘法 (X+Y、X*Y) ， 由 于 和 圆 形 有 关 ， 
我 们 再 试 下 X*X+Y*Y: 

pd circ['X add Y'] = pd circ['X'] + pd circ['Y'] 

pd circ['X time Y'] — pd circ['X'] * pd circ['Y'] 

pdSctrc['x2-add:Y2'].— pd circi xI] * pd^circ['x'] + pdscircp'y'].* pa- 
Cicci xa 


sns.pairplot(pd circ, hue-"label") 


其 运行 结果 如 图 2-12 所 示 。 






































图 2-12 X*X+Y*Y 的 结果 
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注意 右 下 角 的 图 会 发 现 ， 我 们 挖掘 的 X*X+Y*Y 这 个 特征 ， 单 独 一 个 特征 已 经 是 线性 可 分 
的 了 ， 这 极 大 地 降低 了 计算 机 模型 将 二 者 分 开 的 难度 。 

读者 可 能 会 问 ,难道 计算 机 只 认识 线性 可 分 、 不 认识 圆 形 边界 吗 ? 如 果 有 成 百 上 二 个 特征 ， 
难道 数据 科学 家 在 成 百 上 千 个 特征 基础 上 手动 组 合 各 种 可 能 性 ? 实际 上 计算 机 当然 可 以 认 出 圆 
形 的 边界 ， 这 里 只 是 很 简单 的 特征 工程 例子 ， 计 算 机 同样 可 以 借助 数学 模型 实现 。 比 如 这 里 圆 
形 边界 的 例子 ， 就 可 以 通过 计算 两 个 类 群 的 高 斯 分 布 特征 ， 进 而 借助 高 斯 核 函 数 实现 分 割 ; 





pd circ melt = pd circO.melt(id vars-['label']). AN 
pivot table(index-['variable'], columns-['label'], 


aggfunc-[np.mean, np.var]) 


mean X = pd circ melt['mean']['value'].loc['X'].values.reshape (2,1) 
mean Y = pd circ melt['mean']['value'].loc['Y'].values.reshape (2,1) 
var X = pd circ melt['var']['value'].loc['X'].values.reshape (2,1) 


var Y = pd circ melt['var']['value'].loc['Y'].values.reshape (2,1) 


probX = 1 / np.sqrt(2*np.pi*var X) * \ 
np.exp(-1* (np.array([pd circ['X'].values,pd circ['X'].values]) EN 
reshape(2,600)-mean X)**2 / (2*var X)) 


probY = 1 / np.sqrt(2*np.pi*var Y) * \ 
np.exp(-1* (np.array([pd circ['Y'].values,pd circ['Y'].values]) SN 
reshape(2,600)-mean Y)**2 Vi (2*var Y)) 


pd2 = pd.DataFrame (probX.T*probY.T) 
pd circ['pred'] = pd2.apply (lambda x: "Class2" if x[0] < x[1] else 
"Classl", axis-1) 


pd circ 









X label X add Y X time Y X2 add Y2 pred 
0.596878 | -0.30041 Class2 0.296467 -0.17931 0.446509 Class2 | 
5.112182 | -0.49413 Classl 4.618049 -2.5261 26.37857 Classl | 
-3.34097 3.760705 Classl 0.419736 -12.5644 25.30497 Classl 
-1.54582 0.033936 Class2 -1.51189 -0.05246 
-0.84614 4.438461 Class 3.592322 -3.75555 




























2.390721 
20.41589 


Class2 
Class | 
以 高 斯 分 布 来 拟 和 各 个 类 群 XY 的 分 布 ， 继 而 通过 高 斯 分 布 给 出 的 概率 得 出 的 分 类 结果 是 
pred 列 ， 而 pred 列 中 给 出 的 结果 与 实际 结果 是 基本 符合 的 。 可 见 借助 算法 模型 ， 计 算 机 可 以 实 
现 多 个 特征 的 组 合 。 但 是 这 种 组 合 往往 缺乏 针对 性 , 如 果 人 类 专家 能 在 此 手动 挖掘 几 个 关键 特征 ， 
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“提示 ”计算 机 一 下 , 将 更 加 可 能 得 到 好 的 结果 。 比如 计算 机 并 不 直接 认识 文本 、 年 月 日 、 经 纬度 、 
人 物 关 系 等 ， 需 要 人 类 专家 在 现 有 数据 基础 上 ， 根 据 需 要 做 一 些 基 本 转换 ， 这 些 信息 才 可 以 被 
有 效 利 用 。 

最 后 说 两 点 在 实际 特征 工程 进行 中 入 门 者 需要 注意 的 事项 : 

(1) 对 于 离散 特征 ， 使 用 one-hot 编码 。 

例如 ， 对 于 这 种 输入 : 




















这 种 方法 错误 的 原因 是 ， 如 果 用 连续 的 数字 来 表示 不 同 职业 ， 计 算 机 会 认为 这 些 数字 存在 
大 小 关系 ， 由 于 1 <2 < 3， 因 此 工人 < 农民 < 军人 ， 这 种 观点 当然 是 错误 的 ， 所 以 这 里 相当 于 
是 给 了 模型 一 个 经 过 错误 处 理 的 输入 数据 。 对 于 这 种 情况 ， 我 们 使 用 one-hot 编码 来 表示 。 如 果 
用 one-hot， 这 里 正确 的 表示 方法 就 是 某 个 人 是 不 是 工人 、 是 不 是 农民 、 是 不 是 军人 : 


import pandas as pd 


df onehot example = pd.DataFrame(( 

"name" : Tu 张 三 u" 李 四 p u" 王 五 m u" 李 武 m 
"job" : [u" IA", w RKR", w £A ", w IA" 
) 





pd.get dummies (df onehot example, columns-["job"]) 


| |name [jo A [jb RR [jo IA | 
Lo]s« Joe Jo |  — 


Lrp]seu Joe | fo | 
L2]ss Ji .— o — o | 
[Ls lern Jo — [o | — jJ 





(2) 特征 工程 其 实 是 个 头脑 风暴 的 过 程 。 在 开始 阶段 ， 特 征 要 尽 可 能 多 ， 到 了 后 期 ， 则 要 
尽 可 能 地 选择 最 重要 的 特征 用 于 模型 训练 。 这 种 选择 可 以 通过 在 模型 中 引入 正则 化 来 完成 ， 至 
于 多 保留 特征 还 是 多 舍弃 特征 ， 这 里 可 以 通过 调整 正则 化 常数 来 实现 ， 调 整 结果 的 好 坏 可 以 进 
一 步 在 验证 集中 的 表现 来 确认 。 
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初学 者 可 能 会 忽略 这 一 点 ， 看 见 模型 预测 准确 率 在 训练 集中 很 高 ， 一 看 准确 率 99% 就 以 为 
训练 成 功 ， 忘 记 在 验证 集中 确认 模型 的 表现 。 如 果 此 时 验证 集 的 表现 并 不 好 ， 数 据 就 发 生 了 过 
拟 合 现象 。 我 们 用 应 试 教育 的 例子 来 类 比 的 话 ， 一 个 学 生平 时 作业 准确 率 很 高 ， 他 的 学 习 方法 
就 是 “ 背 答案 ”， 而 且 背 得 很 准 ， 见 过 的 题目 全 部 都 知道 答案 ， 但 是 题目 稍微 变 一 下 ， 就 不 会 做 
题 了 , 于 是 考试 时 拿 到 新 题目 ,准确 率 就 下 来 了 。 这 种 现象 归根 结 底 是 无 法 很 好 地 适应 未 知情 况 。 

同样 ， 用 监督 学 习 的 名 词 来 蔡 换 应 试 教育 ， 见 过 的 数据 都 能 预测 对 ， 没 见 过 的 准确 率 大 幅 
降低 ， 这 种 情况 也 是 由 于 数据 不 能 合理 地 适应 未 知情 况 。 这 种 模型 并 不 是 我 们 需要 的 结果 。 

最 后 ， 过 拟 合 的 前 提 是 ， 学 生平 时 成 绩 很 好 ， 考 试 没 发 挥 好 。 如 果 平 时 成 绩 就 不 好 ， 考 试 
也 没 考 好 ， 这 种 情况 属于 欠 拟 合 。 如 果 发 生 欠 拟 合 ， 引 入 正则 化 就 不 是 那么 紧迫 了 ， 我 们 应 该 
更 多 关注 关键 特征 是 否 被 正确 挖掘 、 模 型 是 否 合理 、 数 据 是 否 充足 等 。 我 们 举 一 个 多 项 式 回 归 
的 例子 ， 图 中 是 在 用 多 项 式 拟 合 加 入 噪声 的 cos 曲线 的 一 部 分 ， 左 图 是 一 次 多 项 式 拟 合 ， 显 然 
由 于 一 次 多 项 式 是 线性 的 , 拟 合 曲线 肯定 不 够 合理 , 于 是 发 生 了 欠 拟 合 ; 中 间 的 使 用 4 次 多 项 式 ， 
看 起 来 不 错 ; 而 右边 的 十 次 多 项 式 拟 合十 个 点 ， 结 果 看 起 来 误差 更 小 、 更 完美 。 但 是 假如 再 从 
cos 函数 中 抽取 若干 点 ， 这 条 线 拟 合 的 效果 就 会 差 很 多 ， 因 此 属于 过 拟 合 的 情况 ， 需 要 用 正则 化 
减少 多 项 式 的 次 数 。 有 关 正 则 化 具体 如 何 实现 ， 下 一 部 分 讲解 使 用 模型 时 将 进一步 介绍 。 


* SIE http://scikit-learn.org/stable/auto examples/model selection/ 
plot underfitting overfitting.html 

import numpy as np 

import matplotlib.pyplot as plt 

from sklearn.pipeline import Pipeline 

from sklearn.preprocessing import PolynomialFeatures 

from sklearn.linear model import LinearRegression 

from sklearn.model selection import cross val score 


*$matplotlib inline 


def true fun(X): 
return np.cos(1.5 * np.pi * X) 
np.random.seed(42) 
n samples = 30 
degrees = [1, 4, 15] 
X = np.sort(np.random.rand(n samples)) 


y = true fun(X) + np.random.randn(n samples) * 0.1 


plt.figure(figsize-(14, 5)) 

for i in range (len (degrees)): 
ax = plt.subplot(1, len (degrees), i + 1) 
plt.setp(ax, xticks-(), yticks-()) 


polynomial features — PolynomialFeatures (degree-degrees[i], 


include bias-False) 
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linear regression = LinearRegression() 
pipeline = Pipeline([("polynomial features", 
polynomial features), ("linear regression", linear regression)] 
) 
pipeline.fit(X[:, np.newaxis], y) 
# Evaluate the models using crossvalidation 
Scores — cross val score(pipeline, X[:, np.newaxis], y, 


Scoring-"neg mean squared error", cv-10) 


X test - np.linspace(0, 1, 100) 
plt.plot(X test, pipeline.predict(X test[:, np.newaxis]), 
label-"Model") 
plt.plot(X test, true fun(X test), label-"True function") 
plt.scatter(X, y, edgecolor-'b', s-20, label-"Samples") 
pit.xlabel ("x") 
plt.ylabel ("y") 
plt.xlim((0, 1)) 
plt.ylim((-2, 2)) 
plt.legend(loc-"best") 
plt.title("Degree {}\nMSE = (:.2e) (+/- (:.2e))".format( 
degrees[i], -scores.mean(), scores.std())) 
plt.show() 


其 运行 结果 如 图 2-13 所 示 。 正 则 化 系数 过 高 〈 左 ) ~ HE E) 都 会 影响 拟 合 的 效果 。 





Degree 1 Degree 4 Degree 15 
MSE = 3.79e-01(+/- 6.67e-01) MSE = 1.20e-02(+/- 6.80e-03) MSE = 1.60e+07(+/- 4.80e+07) 
— Model 一 Model 一 Model 
— True function -一 True function — True function 


© Samples e Samples e Samples 


























x x x 


图 2-13 多 项 式 曲线 拟 合 过 程 中 引入 正则 化 





2.3.3 第 三 步 ， 使 用 模型 


这 一 步 就 是 大 家 通常 所 说 的 “ 调 (diao) 包 ” 以 及 “ 调 Ciao) 参 ” 了 ， 即 调用 算法 包 中 的 
现 有 模型 ， 通 过 调整 模型 参数 ， 使 模型 在 数据 集中 得 到 较 好 的 表现 。 本 书 主要 介绍 的 深度 神经 
网 络 也 是 一 种 模型 ， 后 文 将 会 详细 介绍 这 一 点 。 
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经 常 有 人 说 机 器 学 习 从 业 人 员 就 是 在 调包 和 调 参 ， 这 个 观点 其 实 是 值得 商检 的 。 因 为 首先 
如 上 文 所 述 ， 有 经 验 的 数据 科学 家 在 拿 到 数据 后 ， 主 要 的 精力 是 放 在 数据 挖掘 上 ， 再 进一步 说 ， 
如 果 考 虑 数据 的 收集 环节 , 那么 数据 科学 家 大 部 分 精力 并 不 是 放 在 模型 上 , 而 是 放 在 数据 的 收集 、 
整理 、 清 洗 环 节 上 。 

给 这 种 现象 再 深 挖 一 层 原因 ， 这 个 问题 其 实 出 在 监督 学 习 有 明确 的 评价 标准 上 。 由 于 标准 
明确 ， 因 此 机 器 学 习 就 有 了 套路 ， 然 后 这 个 套路 就 被 理解 成 了 调包 、 调 参 。 这 个 标准 就 是 模型 
给 出 的 结果 和 实际 结果 是 否 一 致 。 这 是 一 个 很 好 理解 的 标准 ， 比 如 老师 要 培养 学 生 的 个 人 品质 、 
人 生 观 、 价 值 观 ， 可 能 并 不 是 一 件 容易 的 事情 ， 如 何 培养 一 句 话说 不 清楚 :如 果 老 师 要 提高 学 
生 考 试 成 绩 ， 就 相对 容易 了 许多 ， 因 为 考试 有 明确 的 范围 以 及 评价 标准 ， 只 需要 关注 这 部 分 内 
容 对 症 下 药 即 可 , 如 同 机 器 学 习 从 业 人 员 为 了 提高 模型 表现 , 使 用 不 同 模型 、 调 整 不 同 参数 一 样 ， 
虽然 不 好 做 ， 终 归还 是 有 套路 的 ， 如 果 要 让 模型 打 游戏 ， 模 型 就 需要 对 游戏 中 各 种 行为 的 收益 
做 一 个 衡量 ， 此 时 模型 也 没有 公认 明确 的 量化 指标 ， 而 是 上 升 到 “人 生 观 、 价 值 观 ”的 层面 了 ， 
评价 模型 就 如 同 评价 学 生 个 人 品质 一 样 ， 同 样 也 是 一 句 话 说 不 清楚 的 。 

这 里 将 从 评价 标准 讲 起 ,从 后 往 前 简单 说 一 下 这 部 分 内 容 。 首 先 简单 介绍 逻辑 回归 的 公式 ， 
进而 根据 评价 标准 讲 一 下 模型 的 损失 函数 问题 ， 最 后 说 一 下 上 一 步 的 正则 化 如 何 影响 这 里 的 损 
失 函 数 。 由 于 本 书 的 入 门 性 质 ， 我 们 仍然 选择 简单 的 讲 ， 这 里 主要 介绍 逻辑 回归 模型 。 

1. 逻辑 回归 的 公式 表达 

虽然 名 字 带 了 回归 ， 但 事实 上 ， 这 里 逻辑 回归 是 一 个 有 监督 的 分 类 问题 。 我 们 具体 看 一 下 
逻辑 回归 做 了 什么 。 

接 下 来 ， 本 书 将 推出 一 些 公式 。 初 学 者 可 能 最 怕 的 就 是 满 篇 的 公式 ， 为 了 方便 读者 理解 ， 
这 里 从 高 中 课本 开始 说 起 。 高 中 课本 中 有 一 个 “一 元 二 次 回归 ”， 形 式 如 下 : 

y=ax+b 

注意 ， 高 中 课本 上 的 x 和 y 是 一 个 数字 ， 而 实际 上 这 里 的 x 可 以 是 一 个 长 度 是 mm 的 向 量 
Cvector) 。 背 后 的 数学 意义 是 ， 之 前 预测 只 考虑 一 个 因素 ， 这 里 考虑 m 个 因素 ， 而 这 里 的 m 
个 因素 就 可 以 是 高 尾 花 数据 集中 的 四 个 特征 (m= 4D : 

y=axat+axz +` + AmXm + b 


这 里 的 公式 用 向 量 的 形式 重新 定义 : 











其 中 
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注意 ， 向 量 通常 是 紧 着 写 的 ， 这 里 用 了 转 置 wr 将 其 变 成 横向 ， 读 者 或 许 有 点 懂 ， 简 单 讲 一 
下 。 首 先 ， 这 里 为 了 简化 ， 向 量 o 里 面 多 了 一 位 2，x 里 面 多 了 一 位 1， 这 样 就 可 以 把 常数 项 放 
进来 ， 使 公式 更 加 简洁 。 其 次 ， 这 里 使 用 了 线性 代数 中 矩阵 的 乘法 ， 由 于 我 们 的 结果 了 只 有 一 
个 数字 ， 不 妨 认 为 它 就 是 一 个 1X1 的 矩阵 。 根 据 和 矩阵 乘法 的 原则 ， 两 个 矩阵 相 乘 ， 前 面 一 个 的 
行 数 定义 结果 有 多 少 行 ， 后 面 一 个 的 列 数 定义 结果 就 有 多 少 列 ， 所 以 m+ fT 1 列 的 e 要 变 成 1 
ff mH 列 的 形式 wr， 这 样 结果 才 会 是 1X1 的 结果 。 

逻辑 回归 做 的 就 是 对 这 个 结果 进一步 变化 : 









































Gud TR E ERES. s 
$ = sigmoid(w" x) = lre 


我 们 关注 ftx) = sigmoid(x) 的 形式 : 


-6 -4 -2 0 2 4 6 

其 实 对 于 绝 大 多 数 的 输入 x* (绝对 值 大 于 5) ，sigmoid 函数 都 会 返回 一 个 非常 接近 0 或 者 
1 的 结果 ， 只 有 x 取 值 范围 在 [-5, 5] 之 间 时 才 会 是 其 他 值 。 正 是 由 于 这 种 特性 ， 我 们 可 以 近似 认 
X sigmoid 函数 的 返回 值 就 是 0 或 者 1， 这 种 离散 化 就 是 逻辑 回归 “名 日 回归 ， 实 则 分 类 ”的 原 
一 一 我 们 就 可 以 认为 ， 这 里 的 y 代 表 了 某 个 样本 是 否 属于 某 个 分 类 的 概率 ， 例 如 高 尾 花 分 类 
问题 , 对 一 个 样本 , 我 们 可 以 对 四 个 特征 先进 行 线 性 回归 , 算出 一 个 数 , 再 进一步 进行 逻辑 回归 ， 
判断 这 个 样本 属于 某 一 分 类 的 概率 。 注 意 ， 这 里 真实 的 y 是 一 个 非 0 BU 1 的 数字 。 我 们 预测 的 
结果 8 了 则 是 多 辑 回 归 函 数 的 纵 坐 标 一 一 取 值 范围 [0,1] 的 一 个 概率 值 。 
此 时 ， 读 者 心里 可 能 会 有 一 个 疑问 : 逻辑 回归 函数 中 sigmoid(w TX) 的 w 是 怎么 算出 来 的 ? 
[以 猜 吗 ? 这 里 确实 需要 猜 一 下 ， 其 中 的 算法 大 概 是 这 样 的 : 

(1) 随机 初始 化 一 组 w， 比 如 可 以 全 部 设 为 0， 当然 实际 上 不 推荐 这 样 。 

(2) 在 训练 集中 ， 向 逻辑 回归 函数 里 输入 特征 x， 计 算 wTx， 得 到 预测 结果 了 。 

G) 计算 全 部 训练 集中 逻辑 回归 的 结果 分 和 实际 的 差别 。 

(4) 根据 上 一 步 的 差别 更 新 w。 

(5) 重复 (2) ~ (4). 若干 次 (iterations) 。 
































z| 























2. 损失 函数 一 如 何 表示 预测 少 和 实际 y 之 间 的 差别 

回顾 一 下 我 们 现在 会 做 什么 。 首先， 猜 一 组 数字 ， 当 然 会 做 〈 当 然 第 5 章 讲 述 卷 积 层 时 还 

会 介绍 深度 神经 网 络 中 随机 初始 化 需要 注意 的 事项 ) 。 其 次 ， 乘 法 、 加 法 和 sigmoid 函数 也 会 写 ， 
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关键 是 第 三 步 和 第 四 步 , 如 何 表示 预测 和 实际 ?之 间 的 差别 , 35748 [63 HE LAN T S6 SORS CSS - 
XTGOUBKHIHAEUCS. HAREK E. BRIT UDEPERUSTE, FU 
而 言 ， 这 里 引用 吴军 老师 《数学 之 美 》 一 书 中 的 一 段 描述 : 


MORI. Y E BIER BRI ELE, MERE ME FIRENS, RII INDE RERI o 
THE TIE JEAN ERER RA, AB IETUIBIL FR ARK 1 ERAR, RIR MWEE 
Ete MEA RRE DRET BERÉ MEEF? 

JU DUXI E, 135/32 号 (RKKA RHE 32 SEREIG ANERER 48 
XITHER E BDEIEDUSDO IEEHREIEII. — RE 1 SI 16 GHG? V JR EPURAUBOM F.H 
BRZ: E18 GPG? ” o BRIGAR, PRITE, HESS k 
UER Z S JERBE RT ARÉ MKR MEEF o 

Blk, RIEF ZRH EÁ BEURE SER RIRA ERIE, A 
PRBE CIHBEBI, FRE UEM, PEBRE S8 PAR) , BRN 
BWF BAE 5 ffo MRA 64 KM ti, REER M, HRE 6 ffo 


mIULIX HU SSXEXKBAGBEA, Sb EA ix AR B LBS fes EARR ES. ERER, A EU 
的 求法 ， 背 后 的 假设 是 各 球 队 夺 冠 的 概率 相等 ， 而 实际 情况 并 非 如 此 ， 虽 然 64 支队 伍 参 赛 ， 但 
具备 夺冠 实力 的 球 队 只 是 个 位 数 ， 因 此 实际 的 信息 炳 是 低 于 这 个 数字 的 。 

METIER, REKK VIE JE SE UBI. SE UR FH OR i EP IE ERU ERR DL, AF 
T WP TESI EEG "CCIRUAE SOR ART SE. WREEK EIK LIBE n TROU ET ARES. RI SIE Ba E 
Xy WKF, KMW RSKR, A 0. RERNE EX 
REXHA: 





K 
H=-Y yelog 9e 
x 


这 里 的 天 代表 下 个 最 终 分 类 ， 如 高 尾 花 数 据 集中 最 终 对 三 种 花 分 类 ， 则 K-3. 
如 果 是 二 分 类 的 情形 ， 此 时 K=2， 就 有 : 
H = -[ylog? + (1 — y)togQ — 3)] 
RNW REL — FIRE FERRE, üRDAGGEIARDSAAIRGE y-0,. REE 
WERI S FENRIR: 
y-0 
np yhat = np.linspace(0, 1, 101) 


np h = -(y*np.log(np yhat) + (1-y)*np.log(1-np yhat)) 
plt.plot(np yhat, np h) 
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可 见 我 们 预测 的 也 和 真实 的 》 RRE, BERE, ERRE 0。 相 反 ， 如 果 
预测 值 了 3 和 真实 的 y 完 全 相反 , 实际 不 是 这 种 分 类 情况 Cy = 00 , 预测 时 却 100% 判断 是 1 (了 = D, 
交叉 燃 的 值 就 会 接近 正 无 穷 大 。 

以 上 内 容 只 是 考虑 一 个 样本 的 情况 。 当 考虑 多 个 样本 时 , 每 个 样本 都 可 以 计算 一 个 交叉 燃 ， 
此 时 就 可 以 用 全 部 样本 的 平均 交叉 炳 作为 损失 函数 (Loss function) 来 衡量 模型 预测 的 准确 程度 : 


N N K N K 
osse Him c) D aloga = c D 2 ulog Cr 
oss2—» Hi2-— yu logPix = —— Jiulog ( ———7— 

Ne va nag Ede 








简单 回忆 一 下 ， 最 右边 的 式 子 中 总 共有 N 个 样本 天 个 分 类 ， 在 营 尾 花 数 据 集中 ， 就 是 
N=150、K=3。yi 是 第 i 个 样本 第 个 分 类 ， 如 果 这 个 样本 属于 第 0 个 分 类 ， 那 么 y=0=1， 
Ju71,270. o 一 共有 天 组 ， 每 组 都 是 长 度 为 M+1 OM 是 特征 数 ， 如 高 尾 花 数据 集 M=4) 的 向 量 。 
在 实际 计算 中 ，w 真正 需要 天 一 1 组 即 可 ， 比 如 二 分 类 的 话 ， 预 测 一 类 后 另 一 类 的 概率 也 就 知 
道 了 ， 由 于 只 预测 一 类 ， 因 此 使 用 一 组 w 即 可 。 

可 能 读者 被 这 里 的 数学 公式 给 吓 到 了 ， 再 用 通俗 一 点 的 语言 简单 进行 总 结 。 其 实 这 里 需要 
交叉 焙 回 答 的 问题 是 对 于 每 个 样本 的 分 类 结果 ， 模 型 给 出 的 预测 与 实际 情况 有 多 大 的 区 别 。 所 
ARATE EE RE SCREBIAR JXCULRR 3 23 D0 80 KPI GPA 这 样 的 可 量化 考勤 指标 , 模型 每 预测 一 次 ， 
就 用 交叉 炳 来 考勤 一 次 。 如 果 模 型 的 考勤 结果 不 好 怎么 办 ? 如 何 改进 下 一 步 的 工作 ? 请 看 下 一 
部 分 内 容 。 


3. 如 何 根据 预测 和 实际 y 之 间 的 差别 更 新 参数 w 


此 时 ， 我 们 就 得 到 了 第 三 步 中 “计算 全 部 训练 集中 ， 风 辑 回 归 的 结果 了 了 和 实际 y 差别 ”。 
我 们 可 以 基于 这 种 差别 ， 进 一 步 更 新 o 的 值 : 





























OLoss 
Iwt 

其 中 , 上 代表 人 迭代 次 数 , 因为 这 里 更 新 值 并 不 是 一 步 完 成 的 , 可 能 迭代 了 上 百 次 ; a 是 学 习 率 ， 
用 来 控制 迭代 的 步 长 ， 这 里 需要 根据 数据 进行 一 定 调整 ， 过 小 会 导致 训练 缓慢 ， 过 大 则 会 造成 
结果 精度 不 足 。 





O = wta 
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即 二 


量化 考勤 指标 ， 如 果 想 提高 得 分 ， 应 该 怎么 办 ? 最 简单 的 方法 就 是 看 看 指标 中 哪 一 项 得 分 低 


学 习 技术 图 像 处 理 入 门 


剩 下 的 问题 就 是 求 偏 导数 了 。 这 里 引入 链 式 求 导 法 则 。 为 了 简化 操作 ， 这 里 只 考虑 K=2， 
分 类 情况 ， 有 : 
m 
Loss — 42, bi log(sigmoid(«"x;)) * (1 — yj)log (1 — sigmoid(wTrxD)] 
进一步 化 简 ， 将 y; 进行 向 量化 、 将 x 进行 矩阵 化 以 消除 求 和 项 : 
Loss = ip log(sigmoid(XTw)) + (1— y)log (1— sigmoid(XTw))| 
N 
进行 简单 的 化 简 ， 令 : 
1 
g(x) = Te 


利用 导数 的 定义 以 及 链 式 求 导 法 则 ， 则 有 : 


OLoss | 1 1 3 A 
05 ^ Oda) -ü-»i1-200 gro) Jol 0 w) 





根据 : 


9 
BI = IA- 962) 


带 回 公 式 ， 化 简 得 到 : 





OLoss 
Ee T, 
Ja "OC - 907 9)X 


这 里 继续 来 拯救 被 公式 吓 懂 的 读者 。 前 面 说 到 交叉 焙 损 失 函 数 实际 就 是 KPI、GPA 这 样 的 
比 








OLoss 


如 考试 分 数 ， 数 学 考 了 99 4. SUB 60 分 ， 我 们 就 可 以 认为 数学 成 绩 相 比 100 分 满分 的 差距 C7) 
是 1、 英语 是 40， 那 么 想 提 高 考试 成 绩 的 话 ， 下 一 阶段 就 需要 将 主要 的 时 间 精 力 放 在 英语 上 。 
我 们 也 不 能 在 下 一 阶段 学 英语 学 得 太 猛 而 影响 总 体 成 绩 ， 所 以 需要 乘 以 一 个 学 习 率 a。 


4. 几 点 思考 
至 此 ， 我 们 完成 了 逻辑 回归 的 主要 理论 部 分 。 如 果 读 者 没有 被 公式 绕 晕 、 坚 持 到 了 这 里 ， 


就 从 逻辑 回归 的 理论 出 发 ， 简 单 谈 谈 其 他 的 监督 学 习 公 式 。 首 先 回顾 一 下 逻辑 回归 的 步 又: 
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(1) 随机 初始 化 一 组 w， 比 如 可 以 全 设 为 0， 当然 实际 上 不 推荐 这 样 。 

(2) 训练 集中 ， 在 逻辑 回归 函数 里 输入 特征 x， 计 算 wTx， 得 到 预测 结果 了。 
G) 计算 全 部 训练 集中 ， 逻 辑 回 归 的 结果 了 和 实际 y 差别 。 

(4) 根据 上 一 步 的 差别 更 新 w。 

(5) 重复 (2) ~ (4) 若干 次 (iterations) 。 
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现在 的 问题 是 ， 如 果 要 改动 这 几 个 步骤 变 成 一 个 新 算法 ， 可 以 怎么 改 ? 我 们 注意 到 ， 实 际 
上 可 以 改动 的 地 方 主要 是 第 二 、 三 步 ， 也 就 是 说 ， 可 以 有 这 些 思 路 : 


e 预测 结果 时 ， 把 逻辑 回归 sigmoid 函数 换 成 一 个 其 他 的 函数 。 
。 计算 损失 时 ， 换 成 一 个 损失 函数 。 


这 两 个 步骤 通常 是 同时 变换 的 ， 在 算法 层面 二 者 共同 推导 得 到 。 如 支持 向 量 机 ， 就 是 把 逻 
辑 回归 的 sigmoid 函数 换 成 核 函 数 ， 损 失 函 数 由 平均 交叉 炳 换 成 了 不 同 分 类 的 距离 间隔 。 又 如 朴 
素 贝 叶 斯 , 预测 结果 基于 概率 判断 , 损失 函数 同样 基于 概率 判断 。 本 书 不 再 重点 讨论 这 部 分 内 容 。 
本 书后 面 内 容 将 详细 介绍 的 深度 学 习 算法 则 基本 沿袭 了 逻辑 回归 的 思路 ， 只 改 了 步骤 O) ， 
将 原本 一 个 逻辑 回归 函数 变 成 几 十 个 函数 的 嵌 套 ， 然 后 利用 链 式 求 导 法 则 对 媒 套 的 几 十 个 函数 
进行 反 向 求 导 , 得 出 损失 函数 。 然 后 对 其 他 步骤 做 了 一 些 工程 创新 , 使 其 可 以 适应 更 大 规模 数据 。 


5. 正则 化 
前 面 提 到 , 过 多 的 参数 会 导致 过 拟 合 , 因此 可 以 在 规定 损失 函数 的 时 候 , 将 这 一 点 考虑 进来 


Loss = 正则 化 系数 (C) x 分 类 准确 率 罚 分 项 + 过 多 参数 罚 分 项 


在 上 一 步 中 其 实 也 注意 到 ， 逮 辑 回归 随机 了 一 个 初始 化 的 系数 o 后 ， 接 着 借助 求 导 进行 梯 
度 下 降 ， 就 可 以 得 到 最 终 解 ， 需 要 的 额外 参数 只 有 xc。 而 实际 工程 运用 中 ， 借 助 libfgs sag 等 梯 
度 下 降 求解 工具 ， 我 们 甚至 也 不 需要 提供 a 值 。 因 此 似乎 逻辑 回归 不 需要 提供 额外 的 超 参 数 。 
实际 上 ， 如 果 考 虑 正则 化 ， 就 需要 关注 正则 化 系数 C 的 影响 。 因 此 ， 风 辑 回 归 调 参 主要 调 的 就 
是 这 里 的 C 值 ， 过 小 的 C 会 过 度 强调 罚 分 项 的 损失 而 非 对 模型 预测 结果 的 关注 ， 造 成 欠 拟 合 ， 
而 过 大 的 C 则 会 过 分 强调 结果 ， 可 能 会 造成 参数 数目 过 多 ， 进 而 造成 过 拟 合 。 

这 里 的 过 多 参数 罚 分 项 有 两 种 比较 常见 。 

一 种 是 各 项 系数 的 绝对 值 相 加 ， 即 L1 正则 化 : 





Loss = ||oll: -sb log(sigmoidCXTw)) + (1 —y)log (1 — sigmoid(X™w))| 
另 一 种 是 使 用 L2 正则 化 : 


T, 
c 
Loss = 1s. F [r tog(sigmoid(xTw)) + (1 — y)log (1 ~ sigmoid(x"w))] 


此 时 ， 求 导 的 话 ， 导 数 将 会 分 别 变 成 : 


OLoss 
dw 





= C(y - g(X"w))X + sgn(w) 





oS ra) 大 二 
Jo ~ CO 9Q€9)X * o 


这 里 sgn(w) 代表 o 正 负 号 。 
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继续 拯救 被 公式 绕 晕 的 读者 们 ， 我 们 知道 KPI、GPA 的 考核 指标 虽然 是 越 多 越 全 面 越 好 ， 
但 如 果 搞 出 几 百 项 考核 指标 来 ， 首 先 这 些 指 标的 内 容 就 不 好 理解 ， 让 人 无 法 根据 结果 得 分 做 下 
一 阶段 的 规划 ; 其 次 这 些 考核 指标 是 否 全 部 合理 也 是 问题 。 因 此 考核 指标 需要 简化 ， 机 器 学 习 
中 就 使 用 了 正则 化 策略 来 简化 考核 指标 的 复杂 性 。 最 后 ， 再 解释 一 下 L1 正则 化 与 L2 正则 化 的 
区 别 。 相 比 工 2 正则 化 ， 加 入 L1 正则 化 后 ， 优 化 得 到 的 向量， 会 具有 更 高 的 稀疏 性 ， 即 向 量 
的 很 多 参数 会 是 0。 而 L2 正则 化 后 ， 优 化 得 到 的 向 量 参数 则 会 是 一 个 接近 0 的 、 很 小 的 参数 。 
具体 原因 是 在 L2 正则 化 中 ， 损 失 函 数 对 oo 的 偏 导数 会 随 着 co 的 值 减 小 而 不 断 减 小 ， 梯 度 下 降 
速度 越 来 越 慢 ， 因 此 最 后 结果 接近 但 不 等 于 0。 而 LL1 正则 化 的 梯度 ， 则 只 和 o 的 正 负 有 关 ， 与 
其 本 身 值 大 小 无 关 ， 因 此 梯度 下 降 速 度 始终 会 保持 一 个 最 小 值 ， 保 证 最 终结 果 的 稀疏 性 。 

本 书 在 5.4 节 会 结合 深度 神经 网 络 , 再 次 讨论 利用 正则 化 、 防 止 过 拟 合 的 问题 , 请 读者 留意 。 


2.3.4 第 四 步 ， 代 码 实战 


本 节 将 根据 之 前 讲述 的 部 分 造 一 个 轮子 以 方便 大 家 理解 ， 然 后 给 出 sklearn 的 代码 ， 用 于 实 
战 时 使 用 。 

eed + 正则 化 系数 c 

alpha = 0.1 # 学 习 率 ， 控 制 更 新 步 长 


y = data.target 
yiy=2] = 1 # 简化 问题 ， 只 考虑 是 否 是 setosa 


+ 矩阵 化 特征 。 加 一 列 全 部 是 1 的 特征 ， 化 ax+b 为 w(x+1)， 简 化 表达 
X = np.hstack([data.data, np.ones like(y).reshape(len(y),1)]) 


+ 第 一 步 ， omega 随机 初始 化 
np.random.seed(42) 


omega = np.random.random(X.shape[1]).reshape(5, 1) 


for i in range(10): 
# 第 二 步 ， 在 训练 集中 ， 逻 辑 回 归 函 数 里 ， 输 入 特征 x， 计 算 sigmoid(omega^Tx), ， 得 到 
预测 结果 
y hat = 1 / (1*np.exp(-X.dot (omega) ) ) 


# 第 三 步 ， 计 算 全 部 训练 集中 逻辑 回归 预测 的 结果 和 实际 y 的 差别 ， 使 用 L2 正则 化 


dL = X.T.dot(C * (y.reshape(-1,1) - Y_hat))+ omega 


# 第 四 步 ， 根 据 上 一 步 的 差别 更 新 omega 


omega += alpha * dL 


omega 
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* out: 
array([[-16.8213461 ], 


[-39. 
[ 62. 
[ 30. 
-52757522]]) 


[ -8 


预览 结果 : 


71445862], 
60998404], 
07176958], 


plt.plot( 1 / (1*np.exp(-X.dot (omega) ))) 











结果 中 前 50 个 样本 被 预测 为 分 类 0， 即 setosa， 其 他 的 被 预测 为 非 setosa， 与 预期 相同 ， 造 


轮子 完成 。 


实战 使 用 时 ， 我 们 可 以 直接 调用 skleam 的 相关 包 ， 发 现 结果 同样 准确 : 


from sklearn.linear model import LogisticRegression 


model = LogisticRegression(C-1) 
model.fit(X, y) 
plt.plot (model.predict (X)) 














1. K 折 交 叉 与 网 格 搜索 
之 前 的 代码 其 实 存 在 一 些 问题 ， 我 们 前 面 强调 过 ， 但 是 在 代码 中 并 没有 体现 ， 大 家 应 该 也 


注意 到 了 : 
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(1) 训练 集 和 测试 集 要 隔离 ， 而 上 一 部 分 代码 测试 用 的 数据 完全 就 是 训练 集 ， 这 样 很 容易 


过 拟 合 。 


(2) 正则 化 系数 是 相当 重要 的 参数 ， 这 里 直接 用 C=1 是 否 合理 ? 





份 看 结果 ， 然 后 重复 人 次 ， 用 这 种 方法 实现 训练 集 和 测试 集 的 隔 


因此 ， 为 了 解决 问题 1， 我 们 引入 K 折 交 叉 ， 将 数据 平均 分 成 K 份 ，K-1 份 拿 来 训练 ，1 


A: 为 了 解决 问题 (2) ， 我 们 


引入 参数 的 网 格 搜索 (Grid Search) ， 尝 试 不 同 参数 的 选择 ， 寻 找 最 优 的 一 种 。 


from sklearn.model selection import GridSearchCV 


parameters = ('C':[0.0001, 0.001, 0.01, 0.1, 1, 
model = LogisticRegression() 

clf = GridSearchCV (model, 
clf.fit(X, y) 

plt.plot( 


np.logl0(np.array([0.0001, 


parameters, cv-10) 


0.001, 0.01, 0.1, 
Clf.cv results ['mean train score'], 
label-"train" 

) 

plt.plot( 
np.loglO0(np.array([0.0001, 0.001, 0.01, 0.1, 
Clf.cv results ['mean test score'], 
label-"test" 

) 

plt.xlabel("log10 C") 

plt.legend() 

plt.ylabel("Cross Validation Accuracy") 


10, 1001] 


1, 10, 1001)), 


1, 10, 100])), 
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2 


由 此 可 见 ， 这 里 不 存在 过 拟 合 问题 ，10 折 交 叉 验 证 自动 生成 的 训练 集 、 验 证 集 预测 准确 率 


高 度 重合 。C=0.0001, 0.001 时 会 由 于 C 过 小 、 对 预测 结果 的 关注 








前 用 的 C=1 其 实 是 碰巧 用 了 合适 的 参数 。 


E 不 足 造成 欠 拟 合 问题 。 我 们 之 


更 多 内 容 ， 读 者 可 以 参考 作者 博客 文章 https:/zhuanlan.zhihu.com/p/25637642 
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2. 评价 不 平衡 样本 分 类 结果 

之 前 根据 准确 率 优化 模型 ， 如 果 数 据 分 布 不 平均 ， 单 纯 地 使 用 错误 率 作为 标准 会 产生 很 大 
的 问题 。 比 如 某 一 种 罕见 疾病 的 发 病 率 是 万 分 之 一 〈0.01%) ， 这 时 如 果 一 个 模型 什么 都 不 管 ， 
直接 认为 这 个 人 没有 病 ， 也 能 拿 到 一 个 99.99». 正确 的 模型 。 这 种 情况 下 ， 模 型 预测 准确 率 是 很 
高 ， 但 却 没有 什么 实际 价值 。 那 么 ， 应 该 如 何 正确 衡量 准确 率 的 这 个 问题 呢 ? 如 果 是 经 典 的 二 
分 类 问题 ， 这 种 情况 下 需要 综合 考虑 不 同 标准 下 的 灵敏 度 以 及 假 阳性 率 。 

理解 这 两 个 概念 之 前 ， 我 们 要 明确 一 点 ， 就 是 与 医生 直接 判断 某 一 患者 是 否 有 病 相 比 ， 模 
型 给 出 的 是 否 有 病 推论 ， 是 一 个 概率 ， 这 时 可 以 选择 一 个 判断 有 病 的 阔 值 ， 比 如 196, BD 1% 可 
能 有 病 的 情况 下 即 判断 为 有 病 ， 和 真实 情况 对 比 后 得 到 如 下 的 二 联 表 : 

| | sees co | 预测 无 病 (-〉 | 
在 此 基础 上 有 : 
真 阳性 率 TPR: 在 所 有 实际 为 阳性 的 样本 中 ， 被 正确 地 判断 为 阳性 的 比率 。 
TP 
TP FN 
假 阳性 率 FPR: 在 所 有 实际 为 阴性 的 样本 中 ， 被 错误 地 判断 为 阳性 的 比率 。 
FP 
FP 十 TN 

然后 在 从 0% 到 10096 区 间 取 多 个 阔 值 ， 得 到 不 同 的 FPR/TPR 值 ， 以 FPR 为 x 轴 、TPR 为 
y 轴 , 就 可 以 得 到 一 条 ROC 曲线 , 继而 计算 ROC 围 成 的 面积 一 一 AUC 值 。 这 种 情况 下 可 以 认为 ， 
AUC 值 越 高 越 好 , 最 高 可 以 是 1。 如果 AUC 值 接 近 0.5, 则 分 类 器 等 于 随机 猜测 。 遇 到 特别 的 情况 ， 
如 果 AUC 接近 0， 则 很 可 能 预测 与 真实 情况 完全 反 了 ， 当 然 这 种 情况 基本 很 少 出 现 。 

注意 这 里 AUC 越 高 越 好 和 最 小 化 损失 函数 这 两 个 概念 。 可 能 某 个 模型 的 损失 函数 已 经 最 小 
化 了 ， 但 是 AUC 却 不 高 ， 造 成 模型 在 实际 使 用 时 会 引入 很 多 错误 一 一 一 个 较 低 的 AUC 值 ， 可 
能 会 在 追求 高 灵敏 度 时 引入 大 量 的 假 阳 性 ， 其 后 果 就 是 医生 通知 了 十 个 患者 有 患 癌 风 险 ， 最 终 
可 能 只 有 一 个 真有 问题 ， 其 他 九 人 虚惊 一 场 。 这 种 情况 就 是 模型 并 未 被 很 好 地 训练 ， 可 能 存在 
着 欠 拟 合 的 问题 。 同 时 ， 也 可 能 损失 函数 最 小 化 以 后 ， 测 试 数据 AUC 也 很 高 ， 但 是 实际 运用 在 
真实 案例 中 却 又 有 大 量 的 错误 ， 就 是 所 谓 的 过 拟 合 了 。 

如 果 损 失 函 数 无 法 满足 我 们 的 评价 标准 〈 高 AUC 值 ) ， 此 时 需要 做 的 一 件 事 就 是 调整 损失 
函数 ， 比 如 给 数量 较 少 类 别 的 样本 赋予 更 高 的 权重 等 。 那 么 为 什么 不 直接 用 AUC 值 作为 优化 目 
标 呢 ? 原因 很 简单 ， 损 失 函 数 和 整个 模型 的 结构 是 偶 联 的 ，AUC 值 虽 然 作为 评价 指标 很 好 ， 但 
是 计算 步骤 相对 要 麻烦 很 多 ， 也 不 利于 向 模型 中 传播 误差 梯度 ， 所 以 一 般 不 直接 优化 AUC 值 ， 
而 是 用 均 方 误差 (MSE) . AE XU (Cross Entropy) 等 更 容易 计算 的 指标 进行 优化 。 


TPR = 


FPR = 


AT 
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使 用 sklearn 计算 阔 值 的 方法 : 


from sklearn.metrics import roc curve,auc 

np.random.seed(42) 

+ 假如 真实 情况 10000 个 病人 ， 有 10 个 是 有 病 的 

np real = np.array([0.0 for i in range(9990)] + [1.0 for i in range(10) ], 
dtype-bool) 


# 预测 1， 全 预测 为 没 问题 ， 准 确 率 99.90* 
np pred allf = 0.1*np.random.random(10000) 


* 预测 2 : ， 准 确 预测 使 用 情况 ， 准 确 率 100% 
np pred true = np pred allf.copy() 
np pred true[-10:] — 0.99 


fpr, tpr, thresholds = roc curve(np.array(np real, dtype-int),np pred 
alif ) 
AUC value = auc (fpr, tpr) 


fpr2, tpr2, thresholds2 = roc curve(np.array(np real, dtype=int),np_ 
pred true ) 
AUC value2 - auc(fpr2, tpr2) 


+ 虽然 准确 率 差不多 ， 但 是 AUC 值 差异 巨大 
print(AUC value, AUC value2) 


# 0.555805805806 1.0 


fpr2 = np.array([0] + list (fpr2)) 


tpr2 np.array([0] + list(tpr2)) 
plt.figure() 
lw= 2 
plt.plot (fpr, tpr, color='darkorange', 
lw=lw, label-'ROC curve 1 (area = $0.2f)' $ AUC value) 


plt.plot(fpr2, tpr2, color-'g', 


t 


lw-lw, label-'ROC curve 2 (area $0.2f)' $ AUC value2) 


plt.plot([0, 1], [0, 1], color-'navy', lw-lw, linestyle-'--') 


plt.xlabel('False Positive Rate') 

plt.ylabel('True Positive Rate') 

plt.title('Receiver operating characteristic example') 
plt.legend(loc-"lower right") 

plt.show() 
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Receiver operating characteristic example 
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通过 上 一 章 的 学 习 ， 读 者 对 于 机 器 学 习 的 基本 概念 有 了 一 定 的 了 解 ， 此 时 如 果 拿 到 一 个 简 
单 的 MXN 矩阵 化 数据 集 CM 个 特征 ，N 个 样本 ) ， 总 体 流程 应 该 怎么 走 ， 心 里 已 经 有 了 一 个 
基本 的 概念 。 

不 过 ， 如 果 要 分 类 的 样本 不 是 简单 的 几 个 数字 ， 如 高 尾 花 数据 集中 花 辩 、 花 苯 的 长 宽 ， 而 
是 一 张 图 片 ( 如 图 3-1 所 示 ) ， 这 时 应 该 怎么 办 ? 





(图 片 来 源 : https://www.tensorflow.org/get started/estimator) 
图 3-1 分 类 的 样本 是 图 片 
这 里 提供 三 种 解决 问题 的 思路 : 


COD 手动 提取 重要 的 特征 ,用 数字 表示 。 如 这 尾 花 数据 集 ， 当 年 就 是 用 尺子 量 出 来 的 长 度 、 
宽度 ， 交 给 机 器 学 习 分 类 器 。 
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〈2) 用 简单 的 图 像 处 理 操作 , 将 图 片 转 换 为 少数 几 个 简单 的 轮廓 特征 , 交 给 机 器 学 习 分 类 器 。 
(3) 用 深度 神经 网 络 ， 让 深度 学 习 模型 自动 提取 图 片 的 各 种 特征 ， 再 用 模型 自动 提取 的 特 
征 训练 分 类 器 。 


我 们 在 上 一 章 主要 介绍 了 第 (1) 种 思路 ， 本 章 主要 讨论 第 OO 种 思路 ， 后 面 的 部 分 则 重 
点 讨论 第 G) 种 基于 深度 学 习 的 方法 。 而 对 图 像 进行 简单 处 理 操 作 ， 实 际 上 就 是 利用 计算 机 程 
序 实现 类 似 Photoshop 的 粗略 操作 ， 当 然 这 里 用 Photoshop 的 目的 并 非 是 让 图 像 更 加 美观 ， 而 是 
要 让 图 像 尽 可 能 简单 ， 只 保留 最 重要 的 特征 ， 方 便 模 型 提取 特征 。 


3.1 读 取 图 像 文件 进行 基本 操作 


首先 需要 介绍 图 像 文件 的 存储 格式 。 计 算 机 图 像 可 以 分 为 矢量 图 和 位 图 。 矢 量 图 以 代码 的 
形式 存储 ， 常 见 的 包括 学 术 论文 的 统计 图 、 公 司 图 标 等 。 这 里 主要 讨论 如 何 处 理 位 图 ， 其 存储 
格式 包括 png. jpg. tiff 等 ， 常 见 的 包括 各 种 手机 、 数 码 相 机 拍摄 的 相片 。 而 我 们 通常 看 见 的 
8 这 动画 、mp4 影片 ， 也 是 由 多 个 位 图 按照 时 间 排列 、 以 固定 的 帧 数 进行 播放 的 。 

XXH png. jpg. tiff 格式 的 彩色 照片 ， 本 质 上 都 是 一 个 三 维 的 矩阵 ， 即 长 度 、 宽 度 以 及 颜色 
(RGB， 红 绿 蓝 ) 。 格 式 的 文件 结构 都 是 十 六 进 制 数 ， 分 别 使 用 了 不 同 的 图 像 压缩 方法 。 当 然 
解析 这 部 分 内 容 并 不 需要 大 家 过 多 关注 ， 我 们 可 以 在 Python 中 使 用 现成 的 工具 ， 将 十 六 进 制 数 格 
式 的 文件 转换 成 三 维 矩 阵 。 我 们 重点 讲 一 下 openev 的 用 法 ， 这 里 使 用 opencv-python 官网 的 例子 。 





3.1.1 使 用 python-opencv 读 取 图 片 


import numpy as np 


import cv2 


$matplotlib inline 

!wget https://raw.githubusercontent.com/abidrahmank/OpenCV2-Python- 
Tutorials/master/data/messi5.jpg 

img = cv2.imread('messi5.jpg') 


print (img.shape) 
运算 结果 : 


#output: 
(342, 548, 3) 


完成 图 像 读 取 以 后 , 可 以 用 Python 的 matplotlib 基本 绘图 库 进 行 图 像 的 展示 ,如 图 3-2 所 示 。 


import matplotlib.pyplot as plt 
$matplotlib inline 


plt.imshow (img) 
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E] 





图 3-2 展示 图 片 


读 取 图 片 成 功 ， 这 里 的 三 维 矩 阵 高 度 为 342 像素 ， 宽 度 为 548 像素 ， 使 用 RGB 编码 。 如 果 
读者 是 球迷 的 话 ， 很 容易 会 发 现 问题 ， 首 先 这 个 球 应 该 是 黄色 的 ， 怎 么 是 浅 蓝 色 ? 巴萨 球迷 更 
能 一 眼看 出 球 袜 的 颜色 反 了 ， 不 是 红色 是 蓝 色 一 一 红 蓝 色 反 了 。 

出 现 这 个 问题 的 原因 是 ，opencv-python 默认 使 用 BGR 编码 ， 相 对 于 RGB 而 言 ， 色 彩 这 个 
维度 正好 是 反 的 。 之 所 以 这 里 看 起 来 不 太 对 劲 的 原因 ， 主要 还 是 归功 于 巴萨 球衣 是 红 蓝 相间 的 ， 
反 过 来 仍然 是 红 蓝 。 如 果 是 米兰 两 队 〈 红 黑 与 蓝 黑 ) 这 样 转换 ， 球 队 就 会 弄 错 了 。 























3.1.2 借助 python-opencv 进行 不 同 编码 格式 的 转换 


我 们 可 以 用 简单 的 矩阵 操作 ， 或 者 直接 用 opencv 的 函数 ， 将 BGR 颜色 编码 转换 成 RGB. 
如 图 3-3 所 示 。 


# 方法 1. 直接 操作 数组 

fig = plt.figure(figsize-(10, 6)) 

axl = fig.add subplot (121) 

ax2 = fig.add subplot (122) 
axl.imshow(img[:,:,np.array([2,1,0])]) 

* 方法 2. 调用 opencv 函数 
ax2.imshow(cv2.cvtColor(img, cv2.COLOR BGR2RGB)) 























图 3-3 转换 后 的 图 片 
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3.1.3 借助 python-opencv 改变 图 片 尺寸 
如 果 此 时 想 转换 成 一 个 小 一 点 的 黑白 相片 , 将 高 度 X 宽度 变 成 240X360, 可 以 进行 如 下 设置 : 


img gray = cv2.cvtColor(img, cv2.COLOR BGR2GRAY) 
img gray small = cv2.resize(img gray, (360, 240)) 


存储 图 片 : 








cv2.imwrite("gray out.png",img gray small) 
运算 结果 : 


# out: 


True 


此 时 ， 转 换 成 黑白 相片 并 经 过 缩小 后 的 文件 已 经 被 成 功 存储 了 。 
3.2 用 简单 的 矩阵 操作 处 理 图 像 


3.2.1 对 图 像 进 行 复制 与 粘贴 


如 果 我 们 想 在 上 面 的 图 片 中 加 入 其 他 元 素 ， 应 该 如 何 做 呢 ? 比如 在 3.1 节 的 图 中 再 加 入 一 
个 球 ， 顺 便 添加 一 些 文字 。 

这 里 要 加 入 一 个 球 的 话 ， 由 于 图 中 已 经 有 球 了 ， 所 以 实际 上 从 图 中 复制 即 可 。 我 们 注意 到 
在 这 张 342X548 的 图 中 ， 球 的 纵 坐标 在 300 左右 、 横 坐标 在 360 左右 ， 大 小 约 为 60 像素 ， 可 
以 用 numpy 的 数组 切片 img[280:340, 330:390] , 得 到 一 个 子 矩 阵 , 继而 给 原 图 中 的 其 他 位 置 赋值 。 
添加 文字 的 话 ， 在 查询 opencv 的 文档 后 ， 可 以 用 cv2.putText 实现 这 一 功能 ， 如 图 3-4 所 示 。 

ball = img[280:340, 330:390] 

img[273:333, 100:160] = ball 


cv2.putText (img, "文字 ", (10,50),cv2.FONT HERSHEY PLAIN, 
4, (255,255,255),2,cv2.LINE AA 



































) 
plt.imshow(img[:,:,np.array([2,1,0])1) 





o 100 200 300 400 500 


3-4 复制 足球 并 添加 文字 
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3.2.2 把 图 像 当成 矩阵 进行 处 理 一 一 二 维 码 转 换 成 矩阵 


3.2.1 小 节 进 行 的 复制 与 粘贴 只 是 处 理 和 矩阵 的 最 简单 操作 。 | 
本 书 将 讲 一 些 稍微 难 一 点 的 操作 ， 就 是 将 二 维 码 转换 成 矩阵 。 当 


然 ， 这 里 只 是 将 二 维 码 转换 成 0/1 的 矩阵 而 已 ， 至 于 变 成 矩阵 后 
如 何 从 矩阵 提取 其 中 的 内 容 ， 大 家 感 兴趣 的 话 可 以 进一步 研究 。 


im) 




















我 们 以 如 图 3-5 所 示 的 景 略 集 智 数据 科学 的 官方 主页 〈jizhi. 
二 维 码 为 例 ， 这 里 实际 上 是 由 25X25 个 像素 点 组 成 的 ， 每 








个 像素 点 或 黑 或 白 , 但 是 这 张 图 片 并 不 止 25X25 个 像素 点 ， 而 
是 220X220 个 ， 那 么 问题 就 来 了 ， 如 何 将 220X220 个 点 映射 到 
25X25 个 点 的 坐标 上 去 ? 





图 3-5 原始 大 小 〈220,220) 二 维 码 


我 们 首先 读 取 图 片 ， 并 转换 为 [0,255] 的 灰 度 值 编 码 : 
img jizhiQR = cv2.imread("./3.png") 
img jizhiQR = cv2.cvtColor(img jizhiQR, cv2.COLOR BGR2GRAY) 
print(img jizhiQR.shape) 
运算 结果 : 
# out: 
(220,220) 


接 下 来 ， 从 220X220 个 点 映射 到 25X25 个 点 ， 实 际 上 直接 做 一 个 简单 线性 变换 即 可 ， 即 


如 果 坐 标 是 《20，20) ， 则 映射 后 的 坐标 点 应 该 是 〈20/220*25, 20/220*25) = (0, 0) ， 并 且 实 
际 上 很 多 点 变换 后 对 应 〈0, 0) 这 个 点 。 
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此 步骤 的 代码 如 下 : 


# 看 看 取 值 情况 ， 发 现 只 有 0〈 黑 色 ) 和 255 (和 白色) 
set(img jizhiQR.ravel()) 
# (0, 255) 


* 规定 220 个 坐标 ， 分 别 对 应 到 25 个 点 坐标 上 
np 220to25 idx = np.linspace(0, 24.9, 220).astype (np.int) 


# 对 两 个 维度 一 起 规定 ， 如 此 220x220 二 维 平面 上 的 每 个 点 就 都 有 了 到 25X25 的 映射 
np 220to25 mesh = np.meshgrid(np 220to25 idx,np 220to25 idx) 
np 25 counts - np.zeros([25, 25]) 
for row idx in range(220): 
for col idx in range(220): 

col num 25 = np 220to25 mesh[0] [row idx][col idx] 

row num 25 = np 220to25 mesh[1][row idx][col idx] 

if img jizhiQOR[row idx][col idx] == 255: 

# URRH, Wxm25x2554BPETOENIRR +1 
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np 25 counts[row num 25] [col num 25] += 1 


* 统计 25X25 矩阵 中 每 个 点 有 多 少 在 映射 前 是 白色 


import seaborn as sns 





sns.set style('white') 


sns.distplot(np 25 counts.ravel()) 


运行 结果 如 图 3-6 所 示 。 
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图 3-6 原始 二 维 码 中 像素 值 大 小 分 布 


这 里 有 一 部 分 点 取 值 小 于 40， 而 另 一 部 分 点 取 值 大 于 40。 统 计 这 一 步 的 原因 是 ， 我 们 的 映 
射 会 产生 一 些 错位 , 即 切割 不 准确 , 此 时 有 一 些 本 来 应 该 是 黑色 的 点 , 切 的 时 候 进来 了 一 些 白色 ， 
造成 干扰 。 此 时 需要 设 定 一 个 阀 值 ， 即 只 有 大 于 若干 白色 点 ， 我 们 才 认 为 是 白色 ， 和 否则 是 黑色 。 
很 明显 ， 这 里 可 以 设 定 这 一 闵 值 为 40， 查 看 结果 如 图 3-7 所 示 。 





plt.imshow (np_25_counts>40, cmap-"gray") 








图 3-7 原始 二 维 码 压缩 到 (25x25) 的 结果 〈 设 定 二 值 化 阐 值 为 40) 





我 们 注意 到 这 个 结果 与 变换 前 的 二 维 码 看 起 来 完全 相同 ， 扫 描 后 仍然 是 景 略 集 智 数据 科学 
的 主页 https:Wiizhiim。 而 实际 上 ， 这 张 图 片 的 形状 已 经 由 之 前 的 220X220 缩小 到 了 25X25. 
此 时 就 可 以 对 照 二 维 码 的 编码 标准 ， 用 我 们 缩小 后 的 矩阵 逐一 解读 二 维 码 信息 。 
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这 里 进一步 展开 说 明 : 

第 一 ， 为 什么 有 很 多 二 维 码 工 具 我 们 还 要 讲 这 方面 的 内 容 。 其 实 不 是 要 解决 生活 中 二 维 码 
的 问题 ， 而 是 以 二 维 码 这 个 最 像 窍 阵 的 图 像 为 例 谈 谈 如 何 将 图 像 当成 矩阵 处 理 ， 并 且 现 在 越 来 
越 多 的 数据 分 析 公司 喜欢 把 自己 的 招聘 网 页 设计 成 奇怪 的 二 维 码 ， 然 后 有 人 解 出 来 的 在 招聘 时 
加 分 , 至 于 如 何 解决 这 类 问题 , 其 难点 不 外 乎 找 出 映射 函数 (比如 映射 为 圆 形 ) 以 及 各 种 阔 值 ( 奇 
怪 的 颜色 形状 ) 。 

第 二 ， 有 SQL 经 验 的 读者 会 隐约 感觉 到 ， 这 里 实际 就 是 对 图 片 坐标 进行 映射 后 进行 了 类 似 
AVG(value) GROUP BY KEY 的 操作 。 有 深度 学 习 基础 的 读者 ， 更 是 能 意识 到 ， 这 个 问题 实际 上 
就 类 似 深度 神经 网 络 中 的 一 个 池 化 Pooling) 过 程 ， 会 在 5.3 节 详 细 介绍 。 那 么 这 个 问题 能 不 
能 用 深度 神经 网 络 框架 Tensorflow 解决 呢 ? 答案 是 可 以 的 ， 具 体 代码 的 含义 后 续 会 解释 ， 当 然 
这 本 书后 续 案例 基本 上 都 是 使 用 Keras 包装 Tensorflow， 以 简化 难度 。 


import tensorflow as tf 


# 这 里 类 似 解 方程 时 设置 未 知 数 
mat input = tf.placeholder(tf.float32) 


+ 根据 tensorfülowSOCR(mJE*j, MRIH —AK 9X9. HEDER GKH 9). 的 卷 积 核 ， 
扫描 输入 。 

op = tf.nn.avg pool(value-mat input, ksize-[1,9,9,1], strides-[1,9,9,1], 
padding-'SAME') 


# 计算 结果 
with tf.Session() as sess: 
# 初始 化 
sess.run(tf.global variables initializer()) 
# 将 数据 转换 为 [LNCnumber， 图 片 数目 )，H(Cheight, 图 片 高 度 )，WCwidth, 图 片 宽度 )， 
C (channe1， 颜 色 通道 数 ) ] 的 格式 ， 得 到 结果 
# 因此 需要 将 二 维 的 图 片 ， 在 数目 、 颜 色 通 道 两 个 维度 都 加 上 


res = (sess.run(op, feed dict-(mat input: img jizhiQR[np.newaxis, 











:,:,np.newaxis]))) 
查看 结果 〈 如 图 3-8 所 示 ) : 


sns.distplot (res.ravel()) 
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3-8 查看 结果 
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这 里 的 阔 值 目测 可 能 在 130 左右 ， 可 以 用 kmeans 算法 找到 这 个 阔 值 ， 然 后 进行 分 类 ， 其 结 
果 如 图 3-9 所 示 : 





























from sklearn.cluster import KMeans 


kmeans = KMeans(n clusters-2, random state-0).fit(res.ravel().reshape(-1,1)) 
min(res.ravel()[kmeans.labels --1]) 

minVal = min(res.ravel()[kmeans.labels --1]) 

print (minVal) 

* 122.77778 

plt.imshow(res[0,:,:,0] > 122.78, cmap-"gray") 





图 3-9 二 维 码 图 


此 时 扫描 此 图 ， 结 果 仍然 是 https://jizhi.im。 





最 后 ， 我 们 增加 难度 。 读 者 应 该 注意 到 ， 各 个 网 站 公众 号 实际 使 用 的 二 维 码 边缘 上 有 空白 ， 
中 间 有 Logo。 这 种 情况 下 ， 应 该 如 何 排除 这 些 因素 ?作者 这 里 提供 一 种 思路 ， 首 先 将 之 前 的 程 
序 整理 成 函数 : 


def AvgPool(img input, num out): 
mat input = tf.placeholder(tf.íloat32) 
k size = int(img input.shape[0]/num out)+1 
op = tf.nn.avg pool(value-mat input, ksize-[1,9,9,1], strides-[1l, 9, 
9, 1], padding-'SAME') 
with tf.Session() as sess: 
sess.run(tf.global variables initializer()) 
res = (sess.run(op, feed dict-(mat input: img input [np. 
newaxis,:,:,np.newaxis]))) 


bigger label - 1 


kmeans = KMeans (n clusters-2, random state-0).fit(res.ravel(). 
reshape(-1,1)) 


if kmeans.cluster centers [0] » kmeans.cluster centers [1]: 
bigger label - 0 


threshold - min(res.ravel()[kmeans.labels --bigger label]) 
return res[0,:,:,0] » threshold 


57 





深度 学 习 技 术 图 像 处 理 入 门 


行 黑白 的 二 值 化 。 之 前 的 代码 比较 分 散 ， 




















这 里 仍然 是 使 用 TensorFlow 执行 卷 积 计算 ， 然 后 对 结果 进行 Kmeans 分 类 ， 找 出 阔 值 ， 进 
此 这 里 写成 函数 的 形式 ， 提 高 了 复 用 率 。 接 下 来 将 























四 


















































函数 应 用 在 进行 部 分 简单 处 理 后 的 图 像 上 ， 其 结果 如 图 3-10〈 从 原始 二 维 码 图 片 〈 左 ) ， 去 掉 
边缘 以 及 logo CF) ， 最 后 将 大 小 变 成 25X25 的 整个 过 程 ) 所 示 : 





























# 读 图 片 ，BGR 转换 为 RGB 
img jizhiQR = cv2.imread("./jizhi qinding.png") 
:=1] 











img jizhiQR = img jizhiQR[:, 


# 去 掉 边 缘 的 白色 
img jizhiQR gray = cv2.cvtColor(img jizhiQR, cv2.COLOR RGB2GRAY) 
np totalRow = np.arange(img jizhiQOR.shape[0]) 





idx rowUsed = np totalRow[img jizhiQR gray.mean(0) !- 255] 

!= 255] 

:][:,idx colUsed,:] 

# 去 掉 中 间 蓝 色 部 分 ， 即 新 建 一 个 空白 矩阵 ， 然 后 将 原先 矩阵 是 黑色 的 部 分 在 新 矩阵 中 设 为 255 
img jizhiQR new = np.zeros([img jizhiQR rmBlank.shape[0], img jizhiQR_ 





idx colUsed = np totalRow[img jizhiQR gray.mean (1) 
img jizhiQR rmBlank = img jizhiQR[idx rowUsed,: 





rmBlank.shape[1]]) 


idx black = (img jizhiOR rmBlank[:,:,0]«10)*(img jizhiOR 


rmBlank[:,:,1]«10)*(img jizhiQR rmBlank[:,:,2]«10) 


img jizhiQR new[idx black] - 255 


* 用 tensorflow 池 化 函数 ， 将 二 维 码 大 小 减少 到 29x29 
np 25 counts tf = AvgPool(img jizhiQR new, 29) 


fig = plt.figure (figsize-(15,5)) 
axl = fig.add subplot (131) 
ax2 = fig.add subplot (132) 
ax3 = fig.add subplot (133) 


axl.imshow(img jizhiQR) 
ax2.imshow(img jizhiQR new) 


ax3.imshow(np 25 counts tf) 
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3.3 使 用 OpenCV“ 抠 图 ”一 一 基于 颜色 通道 以 及 形态 特征 


3.2 节 用 简单 的 矩阵 操作 方法 对 二 维 码 图 片 进行 了 一 系列 操作 ， 包 括 去 Logo、 降 低 像素 等 。 
本 节 谈 一 谈 如 何 对 图 片 进行 一 些 比较 复杂 的 操作 ， 比 如 我 们 3.1.1 节 中 用 数组 切片 来 抓 取 足球 ， 
使 用 的 命令 是 : 

ball = img[280:340, 330:390] 

为 什么 是 这 个 坐标 ? 这 个 坐标 是 我 们 人 眼看 出 来 的 ， 能 否 让 计算 机 自动 识别 这 个 足球 的 位 
置 ? 这 里 提供 一 种 基于 OpenCV 的 “套路 ”。 

首先 ， 还 是 需要 认真 观察 数据 ， 就 是 刚才 抓 下 来 的 球 〈 如 图 3-11 所 示 ) : 

plt.imshow (ball) 

这 个 球 具 有 以 下 特点 : 

。 ”看 起 来 是 个 国 形 。 

€ 颜色 是 黄色 + 藏 蓝 色 。 

e ”由 于 在 草地 上 ， 因 此 背景 是 绿色 。 


根据 这 三 个 特点 ， 我 们 大 致 确定 思路 ， 几 个 步骤 依次 对 应 
下 面 几 个 特点 : 













































































e ”看 看 有 没有 圆 形 的 识别 算法 一 Hough 变换 。 3-11 从 原 图 中 截取 足球 区 域 
日 ”用 黄色 + 藏 蓝 色 将 球 从 背景 提取 出 来 。 
日 ”用 绿色 过 滤 背 景色 。 


我 们 观察 这 张 球 小 型 图 片 中 的 60X 60 =3600 个 像素 ， 其 中 RGB 的 分 布 如 何 。 这 里 仿照 第 2 
章 用 过 的 seaborn 的 pairplot 函数 来 表达 RGB 三 种 颜色 的 两 两 组 合 ， 其 结果 如 图 3-12 所 示 : 
fig = plt.figure (figsize=(10,10)) 
ax = fig.add subplot (332) 
for r in ball.reshape(-1, 3): 
axpuot( poo vey om(rlOl/2557 9 1017/25579: 21725529) 





























ax = fig.add subplot (333) 
for r in ball.reshape(-1, 3): 

ar ploci o errscetnnp/255- «rud 255*79 1217255299) 
ax = fig.add subplot (336) 
for r in ball.reshape(-1, 3): 

axe prot 27i cetnol/255: x yda55:y 1217255) ) 
for i,color in enumerate(['Red', "Green", "Blue"]): 

ax = fig.add subplot(3,3,i*3*i41) 

ax.text(5,5, color) 

ax.plot(0,0) 
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ax.plot(10,10) 
ax.set xlim(0, 10) 
ax.set ylim(0, 10) 


ax.axis('off') 





图 3-12 图 3-11 中 各 像素 点 RGB 的 分 布 情况 


图 中 的 黄色 与 蓝 黑 色 均 为 足球 的 颜色 ， 而 绿色 则 是 足球 场 的 颜色 。 我 们 接 下 来 要 做 的 就 是 
找 一 个 规则 来 区 分 足球 与 足球 场 。 这 里 简单 地 写 一 个 规则 组 合 ， 其 结果 如 图 3-13 所 示 : 





fig = plt.figure (figsize=(15, 5)) 

axl = fig.add subplot (131) 

ax2 = fig.add_subplot (132) 

ax3 = fig.add subplot (133) 

axl.imshow( (ball[:,:,0]2200) ) 

ax2.imshow( (ball[:,:,0]»130)*(ball[:,:,0]«50) ) 

ax3.imshow( (ball[:,:,0]2130)*(ball[:,:,0]«50)*(ball[:,:,1]«120) ) 




















图 3-13. 使 用 颜色 规则 对 球 的 区 域 进行 二 值 化 (黑色 代表 球 的 区 域 ) 
好 了 ， 根 据 颜色 规则 ， 我 们 已 经 依稀 得 到 了 一 个 圆 形 物体 。 下 一 步 ， 将 这 一 规则 推广 到 整 
张 图 片 中 ， 其 结果 如 图 3-14 所 示 。 

















pan 
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fig = plt.figure (figsize=(12, 5)) 
axl = fig.add _ subplot (121) 
ax2 = fig.add subplot (122) 


imgl = ((img[:,:,0]2130)-*(img[:,:,0]«50) * (4mg[:,:,1]«120) ) . astype (np.uint8) 
axl.imshow (img) 


ax2.imshow(imgl) 








图 3-14. 使 用 颜色 规则 对 整 张 图 片 球 的 区 域 进行 二 值 化 (黑色 代表 球 的 区 域 ) 





由 此 可 见 ， 对 整 张 图 片 进 行 的 颜色 二 值 化 处 理 还 是 比较 有 效 的 ， 至 少 球 这 里 出 现 了 圆 形 的 

状 ， 我 们 经 过 简单 的 处 理 后 ， 将 这 里 的 圆 形 提取 出 来 即 可 。 但 是 这 里 任务 并 不 轻松 ， 因 为 图 
1 还 是 比较 杂乱 : 首先 , 球 中 间 的 黑色 部 分 含有 白色 ,需要 填充 掉 ， 其 次 , 背景 部 分 有 很 多 观众 、 
标语 造成 的 白色 环 状 噪点 ， 这 些 噪 点 不 大 ， 但 会 在 圆 形 检测 环节 干扰 结果 。 
为 了 让 图 片 结果 减少 噪点 ， 我 们 这 里 利用 OpenCV 进行 一 组 侵蚀 Cerode) 稀释 (dilute) 操 
作 ， 如 图 3-15〈 对 图 3-14 的 结果 先进 行 2 像素 侵蚀 ， 再 进行 S 像素 的 稀释 ， 最 后 进行 3 像素 的 
侵蚀 的 整个 过 程 ) 所 示 。 形 象 地 说 ， 可 以 将 图 中 的 黑色 区 域 看 成 是 海岛 ， 白 色 看 成 是 海洋 。 进 
行 侵蚀 操作 后 ， 海 水 上 涨 ， 白 色 区 域 变 多 ， 将 孤立 的 黑色 区 域 “ 淹 没 ”; 然后 进行 稀释 操作 。 
此 时 海水 退去 ， 没 有 被 完全 淹没 的 、 面 积 较 大 的 海岛 基本 恢复 以 前 的 样子 ， 而 被 完全 淹没 的 、 
积 小 的 海岛 则 从 此 消失 。 


kernel = cv2.getStructuringElement (cv2.MORPH RECT, (3, 3)) 














EM 















































Ell 














img e = cv2.erode(imgl, kernel, iterations-2) 
img de 


cv2.dilate(img e, kernel, iterations-8) 
img ede - cv2.erode(img de, kernel, iterations-3) 
fig = plt.figure(figsize-(15, 5)) 

axl = fig.add subplot (131) 

ax2 = fig.add subplot (132) 

ax3 = fig.add subplot (133) 

axl.imshow(img e) 

ax2.imshow(img de) 

ax3.imshow(img ede) 

axl.set title(u"first erode 2 pixels") 

ax2.set title(u"then dilate 8 pixels") 

ax3.set title(u"finally erode 3 pixels") 


61 


深度 学 习 技 术 图 像 处 理 入 门 


finally erode 3 pixels 








图 3-15 侵蚀 、 稀 释 操 作 





经 过 侵蚀 、 稀 释 操 作 后 ， 图 中 的 黑色 部 分 将 会 完全 连 在 一 起 ， 面 积 较 小 的 噪点 则 会 被 完全 
淹没 在 背景 中 。 此 时 ， 下 面 的 两 个 黑色 圆 形 物 体 正 是 我 们 需要 识别 的 球 。 现 在 先 不 着 急 ， 因 为 
OpenCV 的 圆 形 识别 算法 识别 的 并 非 圆 形 物体 ， 而 是 圆 形 的 线条 。 因 此 还 需要 将 这 张 图 片 的 边 
缘 提 取出 来 ， 提 取 边 缘 的 方法 就 是 对 整 张 图 片 计算 梯度 ， 此 时 如 果 一 张 像素 周围 全 是 黑色 或 者 
全 是 白色 ， 则 梯度 为 0， 而 旁边 既 有 黑色 又 有 白色 ， 则 会 产生 一 个 颜色 梯度 ， 即 图 片 边缘 。 我 们 
可 以 用 Sobel 算 子 分 别 对 图 像 的 横向 、 纵 向 计算 颜色 梯度 ， 然 后 求 平方 根 ， 得 到 总 梯度 。Sobel 
算 子 是 一 个 3X3 的 卷 积 核 ， 定 义 如 下 : 













































































E: 0 +1 
Sobel kernel, = |-2 0 +2 
=1 0 +1 
= 2 =f 
Sobel_kernel,= |0 0 0 
+1 +2 +1 








计算 过 程 如 下 : 
Sobel, = Image * Sobel kernel, 
Sobel, = Image * Sobel kernel, 
Opencv-python 的 对 应 代码 如 下 : 


Sobelx = cv2.Sobel(img ede*255, cv2.CV 64F, 1, 0) 
sobely = cv2.Sobel(img ede*255, cv2.CV 64F, 0, 1) 

img sob = np.sqrt (sobelx**2-*sobely**2).astype (np.uint8) 
plt.imshow(img sob) 


其 结果 如 图 3-16 所 示 。 




















图 3-16 对 图 3-15 的 结果 使 用 Sobel 算 子 找 出 其 边缘 位 置 所 在 
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此 时 已 经 得 到 了 圆 形 的 边缘 ， 接 下 来 调用 OpenCV 的 圆 形 检测 函数 一 一 cv2.HoughCircle， 
Hough 变换 提取 图 中 的 圆 形 物体 即 可 ， 如 图 3-17 所 示 。 






































gray = img sob 

# 首先 用 Canny 算 子 过 滤 边 缘 

canny = cv2.Canny(gray, 200, 300) 
+ 其 次 用 中 位 数 进行 卷 积 操作 ， 平 滑 颜 色 梯度 
gray = cv2.medianBlur(gray, 5) 


# 最 后 用 Houghcircle 函数 检测 圆 形 物体 。 这 里 
np hc = cv2.HoughCircles (gray, cv2.HOUGH GRADIENT, dp-1, minDist-60, 















































paraml-200, 
param2-10, 
minRadius-20, 


maxRadius-30) 


# 展示 结果 

fig = plt.figure() 

ax = fig.add subplot (111) 

ax.imshow(img sob, "gray") 

img tmp = np hc 

for i in range(np hc.shape[1]): 

img tmp = cv2.circle(img, (np hc[0,i,0],np hc[0,i,1]), np hc[0,i,2], 

(255, 0, 0), 8) 


plt.imshow(img tmp) 








图 3-17. 成 功 识别 图 3-14 中 球 所 在 的 位 置 

















最 后 多 说 几 句 : 


C) Hough 变换 可 以 在 图 中 检索 线段 以 及 圆 形 ， 具 体 原理 与 利用 极 坐标 系 来 表示 线段 、 
上 的 点 有 关 ， 大 家 可 以 另行 学 习 。 常 见 的 应 用 场景 包括 自动 驾驶 系统 检测 道路 线 〈 直 线 检测 ) ， 
以 及 显微镜 下 观察 细胞 〈 圆 形 检测 ) 。 
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(2) 通常 情况 下 ，Hough 变换 可 以 直接 用 在 灰 度 图 上 ， 即 上 一 个 代码 框 里 的 gray = img 
sob 可 以 是 gray = img _ gray。 这 里 之 所 以 没有 这 么 做 ， 是 因为 背景 部 分 同样 有 很 多 类 似 圆 形 的 物 
体 ， 造 成 了 很 多 干扰 ， 可 能 需要 调试 很 多 参数 才能 得 到 想 要 的 结果 ， 读 者 不 妨 试 一 试 。 如 果 通 
过 颜色 选择 将 特征 二 值 化 ， 进 而 通过 侵蚀 、 稀 释 操作 进一步 去 除 背 景 噪声 之 后 ， 可 以 让 输入 的 
图 形 更 加 简单 ， 更 加 方便 参数 的 调试 。 


3.4 基于 传统 特征 的 传统 图 像 分 类 方法 


3.3 节 介 绍 了 如 何 使 用 图 片 的 颜色 以 及 形状 特征 ， 在 图 像 中 标注 足球 的 位 置 。 这 个 标注 过 程 
实际 上 还 是 基于 人 工 规则 进行 的 ， 存 在 很 多 问题 : 

e “只 能 识别 蓝 黄 相间 的 球 。 

。 只 能 识别 绿色 草地 上 的 球 。 

。 摄像 机 距离 拉 远 、 拉 近 后 球 的 像素 大 小 改变 ， 仍 然 无 法 识别 。 


由 此 可 见 ， 人 工 规则 在 实际 应 用 的 场景 中 会 遇 到 各 种 预想 不 到 的 结果 ， 在 这 些 情 况 下 ， 人 
工 规则 的 表现 会 大 打折 扣 。 为 了 解决 这 些 问题 ， 图 像 处 理 技术 引入 了 机 器 学 习 方法 ， 希 望 通过 
机 器 规则 来 代替 人 工 规 则 。 这 一 思 (tao) 路 w ， 总 体 如 下 


(1) 针对 某 一 图 片 ， 将 几 百 、 上 千 像 素 图 片 简化 为 少数 几 个 区 域 ， 计 算 每 个 区 域 中 轮廓 特 
征 的 走向 。 

(2) 将 正 负 样 本 所 有 图 片 执行 第 三 步 ， 将 轮廓 走向 图 放 入 机 器 学 习 分 类 器 进行 训练 。 

(3) 将 训练 好 的 分 类 器 应 用 在 新 的 图 片 中 。 


我 们 审视 这 一 思路 ， 发 现 这 个 过 程 的 核心 思想 其 实 是 在 简化 图 片 一 一 第 一 步 中 ， 原 本 图 片 
里 各 种 不 同 的 物体 被 减少 到 只 剩 下 轮廓 了 ,但 这 还 不 够 ， 最 后 计算 的 是 一 个 区 域内 的 轮廓 走向 ， 
此 时 一 张 1200X 800X3 大 小 的 图 片 ， 可 能 只 剩 下 1000 个 点 了 ， 信 息 减 少 了 上 千 倍 。 

这 么 做 的 原因 首先 是 传统 的 机 器 学 习 分 类 器 ， 对 输入 数据 的 大 小 有 一 个 大 致 的 上 限 ， 几 千 
张 图 像 数 据 如 果 不 经 过 简化 ， 直 接送 入 模型 ， 模 型 是 无 法 训练 输入 数据 的 ， 其 次 ， 图 像 数 据 最 
有 趣 的 一 点 是 图 中 一 个 像素 点 和 周围 像素 点 周围 联系 非常 紧密 ， 数 据 的 元 余 度 很 大 ， 这 种 元 余 
体现 在 很 多 时 候 ， 即 使 给 图 片 压 缩 、 涂 黑 、 打 马赛 克 ， 我 们 也 大 致知 道 这 张 图 片 的 内 容 ， 同 理 ， 
对 图 片 进行 简化 ， 也 是 基于 这 一 思想 。 

本 节 基 于 这 个 思路 来 介绍 一 下 如 何 用 python-opencv 处 理 图 像 ， 对 图 片 进行 简化 处 理 ， 然 后 
用 上 一 章 的 机 器 学 习 方法 进行 图 像 分 类 。 我 们 使 用 优 达 学 城 CUdacity) 自动 驾驶 纳米 学 位 的 一 
个 开源 项 目 一 部 分 内 容 作为 讲解 材料 ， 希 望 了 解 完 整 部 分 的 读者 可 以 去 优 达 学 城 官 网 udacity.cn 
以 及 开源 地 址 https://github.com/udacity/CarND-Vehicle-Detection 查看 完整 内 容 。 
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我 们 使 用 了 优 达 学 城 标注 的 一 个 行车 记录 仪 数据 集 ， 这 个 数据 集 来 自 GTI 以 及 KITTI 数据 
集 ， 标 注 了 车 辆 以 及 非 车 辆 的 情况 ， 具 体 如 下 : 


# 下 载 数 据 集 地 址 


# 65.4MB 
vehicles.zip 
# 54.9MB 


vehicles.zip 


* 观察 数据 集 


https://s3.amazonaws.com/udacity-sdc/Vehicle Tracking/ 


https://s3.amazonaws.com/udacity-sdc/Vehicle Tracking/non- 


import pandas as pd 


import seaborn as sns 


import numpy as np 


import matpl 
import sys 


import cv2 


otlib.pyplot as plt 


import scipy.stats as stats 


from tqdm import tqdm 


import os 


from sklearn.metrics import confusion matrix, auc, roc auc score 


import matpl 


otlib.pyplot as plt 


import sklearn 


from skimage.feature import hog 


import pandas as pd 


import os 


from tqdm import tqdm 


from sklearn.model selection import train test split 


from sklearn.svm import LinearSVC,SVC 


from sklearn.preprocessing import StandardScaler 


import time 


from scipy.ndimage.measurements import label 


import numpy as np 


import functools 


import pickle 


1 samp = !1s 


M ClassDict 
pd SampClass 
"Sample" 

"Class" 
x.split("/")[2], 
}) [['Sample' 


-/dataset/*vehicles/*/* 


= ("non-vehicles" : 0, "vehicles" : 1} 


= pd.DataFrame(í 
: 1 samp, 
: list (map (lambda x: M ClassDict[x], list (map (lambda x: 
l samp)))) 
; 'Class']] 
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pd SampClass train,pd SampClass cv = train test split(pd SampClass, 
test size-0.33, random state-42) 
pd SampClass train.head() 


运算 结果 : 





Sample Class 
dataset/non-vehicles/GTI/image2279.png 





dataset/non-vehicles/Extras/extra3857.png 
Jdataset/vehicles/KITTI extracted/4374.png 
./dataset/non-vehicles/Extras/extra223.png 











Jdataset/non-vehicles/Extras/extra482] .png 


fig = plt.figure(figsize-(12, 6)) 
for i in range(5): 
image = cv2.imread(pd SampClass train['Sample'].iloc[i]) 
image = image[:,:,::-1] 
ax = fig.add subplot(1,5,i*1) 
ax.imshow (image) 


ax.set title(pd SampClass train['Class'].iloc[i]) 


其 结果 如 图 3-18 所 示 。 





0 1 0 0 
mu 
lo 

0 25 5 0 25 so 0 25 50 0 25 50 


图 3-18 运行 结果 








我 们 的 任务 是 利用 几 千 张 这 样 的 标注 图 片 组 成 的 数据 集 来 训练 一 个 分 类 器 ， 以 区 别 输入 图 














片 是 否 是 车 辆 。 


3.4.1 将 图 片 简化 为 少数 区 域 并 计算 每 个 区 域 轮廓 特征 的 方向 


这 里 其 实 是 运用 方向 梯度 直方 图 算法 (Histogram of Oriented Gradients, HOG) 来 实现 的 。 
这 一 算法 可 以 分 为 以 下 步骤 Chttp://www.learnopencv.com/histogram-of-oriented-gradients/) : 





e “图像 归 一 化 〈 可 选 ) 。 

。 计算 图 像 中 x 以 及 y 方 向 的 梯度 。 
e 根据 梯度 ， 计 算 梯 度 柱状 图 。 

o ”对 块 状 区 域 进行 归 一 化 处 理 。 
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e 展开 结果 ， 将 一 张 图 片 转换 成 一 个 一 维 的 特征 向 量 。 
日 ”提取 的 特征 ， 交 给 支持 向 量 机 或 神经 网 络 分 类 器 进行 训练 分 类 。 


例如 ， 可 以 将 如 图 3-19 所 示 的 左 图 作为 HOG 算法 的 输入 文件 ， 得 到 类 似 右 图 的 结果 。 首 
先 ，HOG 算法 的 结果 只 表示 轮廓 线 的 变换 ， 无 关 颜色 〈 如 白色 的 背景 以 及 右 下 角 黑 色 部 分 ) 都 
没有 轮廓 线 ， 其 次 ， 整 张 图 x、y 方 向 有 成 百 上 千 的 像素 点 ， 这 里 被 缩小 到 了 32X32 的 网 格 区 域 ， 
这 一 点 类 似 前 面 提 到 的 二 维 码 的 读 取 。 当 然 ， 这 里 与 二 维 码 不 同 的 是 ， 除 了 分 组 求 平均 值 以 外 ， 
还 考虑 了 轮廓 线 的 方向 性 ， 即 线条 颜色 深浅 表示 了 轮廓 线 数目 的 多 少 ， 同 时 线条 的 方向 也 可 以 
表示 这 块 区 域内 轮廓 线 的 总 体 走势 。 





















































Input image Histogram of Oriented Gradients 





图 3-19 HOG 算法 实例 (图 片 来 自 skimage 的 官方 文档 ) 
进一步 阅读 官方 文档 ， 发 现 用 法 如 下 : 


fd, hog image = hog(image, orientations-8, pixels per cell-(16, 16), 
cells per block-(1, 1), visualize-True) 





这 里 有 三 个 可 以 调 的 参数 ， 即 orientations. pixels per cell 以 及 cells per block. 3X —4^ 
数 的 含义 简单 说 明 如 下 : 

e pixels per cell 是 指 多 少 个 像素 作为 一 个 网 格 来 计算 , 这 个 值 越 高 , 切 出 来 的 网 格 就 越 少 ， 
整个 HOG 的 结果 就 越 粗略 。 

* orientation 是 指 切 出 来 每 个 网 格 中 有 几 种 方向 的 走势 ， 如 果 是 四 种 ,就 是 上 、 下 、 左 、 右 ; 
如 果 是 八 种 ， 就 再 增加 上 左 、 上 右 、 下 左 、 下 右 四 种 方向 。 

* cells per block 是 指 一 个 网 格 中 使 用 几 个 方向 指针 ， 如 果 是 十 字 交 又 的 情况 ， 则 至 少 需 
要 两 个 方向 指针 进行 交 又 ， 才 可 以 表示 出 十 字 。 

然后 就 是 借助 matplotlib 可 视 化 包 查 看 一 下 不 同 参数 的 结果 ， 如 图 3-20 所 示 。 

fig = plt.figure(figsize-(20, 10)) 

img = cv2.imread("./dataset/vehicles/GTI Far/image0000.png") 

img gray = cv2.cvtColor(img, cv2.COLOR BGR2GRAY) 


for il,pix per cell in enumerate([6,8,10]): 


for i2,cell per block in enumerate([2,3]): 
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for i3,orient in enumerate([6,8,9]): 


features, hog image = hog(img gray, pixels per cell-(pix 


per cell,pix per cell) 


cells per block-(cell per block,cell per block), 


orientations-orient, v 
) 


isualise-True, feature vector-False 


ax = fig.add subplot(3,6,i1*6*i2*3*i3*1) 


ax.imshow(hog image, 'gray') 


ax.set title("Pix$d C$d Ori$d" $ (pix per cell, cell per. 


block, orient)) 






ril ca dii 





图 3-20 使 用 不 同 的 HOG 参数 分 析 输入 图 片 得 出 不 同 的 结果 


这 里 决定 用 cell per bl 





ock = 2， 因 为 感觉 结果 中 最 多 只 出 现 了 两 个 方向 的 交叉 。 然 后 


orientations = 9 对 拐角 处 的 特征 保留 得 更 好 ， 看 起 来 像 车 的 形状 。 最 后 ，pix_per_cell = 8 看 起 来 


正好 可 以 保持 车 的 形状 ， 取 


6 得 到 的 网 格 过 多 ， 取 10 则 得 到 的 网 格 过 少 。 


3.4.2 将 HOG 变换 运用 在 所 有 正 负 样 本 中 


这 里 将 正 负 样 本 抽样 相 
得 到 正 负 样 本 在 各 个 图 片 中 


il 


HOG 值 ， 进 而 保存 在 矩阵 中 。 








关 的 函数 写成 一 个 class， 然 后 在 这 里 引用 class 进行 相应 的 操作 ， 
的 区 域 。 然 后 从 这 些 区 域 中 提取 图 像 文 件 ，resize 到 64X64， 计 算 

















注意 ， 步 需 要 利用 





机 器 学 习 进 行 相应 的 判别 ， 为 了 评价 分 类 的 准确 性 ， 这 里 需要 将 正 


负 样 本 进一步 切割 为 训练 集 和 测试 集 。 


# 这 里 只 看 灰 度 图 的 轮廓 ， 不 考虑 颜色 。 如 果 需 要 考虑 ， 这 里 可 以 继续 添加 
l colorSpace = [cv2.COLOR BGR2GRAY] 


l names = ["GRAY"] 
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"Ten = [1] 


def get hog features(img, orient, pix per cell-8, cell per block-2, 


vis-False, feature vec-True): 


if vis — True: 
features, hog image = hog(img, orientations-orient, pixels per. 
cell-(pix per cell, pix per cell), 
cells per block-(cell per block, cell per block), transform. 
sqrt=True, 
visualise-vis, feature vector-feature vec 
) 
return features, hog image 


else: 
features = hog(img, orientations-orient, 
pixels per cell-(pix per cell, pix per cell), 
cells per block-(cell per block, cell per block), 
transform sqrt-True, 


visualise-vis, feature vector-feature vec 


return features 


def get features(img, pix per cell-8,cell per block-2,orient-9, 
getlImage-False, inputFile-True, feature vec-True): 
1 imgLayers = [] 
for cs in 1 colorSpace: 
if inputFile: 
1l imgLayers.append(cv2.cvtColor(cv2.imread(img), cs)) 
else: 


l imgLayers.append(cv2.cvtColor(img, cs)) 


1 hog features = [] 
1 images = [] 
for feature image in l imgLayers: 
hog features = [] 
n channel - 1 
if len(feature image.shape) » 2: 
n channel - feature image.shape[2] 
for channel in range (n channel): 


featureImg 


feature image 


if n channel > 2: 





featurelImg = feature image[:,:,channel] 


vout,img = get hog features(featureImg, 


orient, pix per cell, cell per block, 
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vis-True, feature vec-feature vec) 
if getImage: 
1 images.append (img) 
*print(featureImg.shape, vout.shape) 


hog features.append(vout) 
1 hog features.append(list(hog features) ) 


if getImage: 
return 1 images 
else: 


return functools.reduce(lambda x,y: x+y, 1 hog features) 


# 对 划分 好 的 训练 集 、 测 试 集 提取 图 像 信 息 ， 计 算 noc 值 ， 存 储 中 间 结 果 
if os.path.isfile("./X train.npy") == 0: 
1 X train = [] 
1X test i 
for r in tqdm(pd SampClass train.iterrows()): 
1 X train.append( 
np.array(get features (r[1]['Sample'])).ravel() 
) 


for r in tqgdm(pd SampClass cv.iterrows()): 
1 X test.append( 
np.array(get features (r[1]['Sample'])).ravel() 
) 


X train = np.array(1l X train) 

X test = np.array(l X test) 

np.save("./X train.npy", X train) 

np.save("./X test.npy", X test) 
else: 


X train = np.load("./X train.npy") 


X test - np.load("./X test.npy") 


y train - pd SampClass train['Class'].values 


y test = pd SampClass cv['Class'].values 


3.4.3 训练 模型 
完成 前 面 的 步 又 后 将 开始 模型 的 训练 。 训 练 的 第 一 步 是 需要 对 数据 进行 标准 化 处 理 : 


X scalerM = StandardScaler () 
X trainT = X scalerM.fit transform(X train) 


X testT = scalerM.transform(X test) 


X trainTs,y trainTs = sklearn.utils.shuffle(X trainT, y train) 
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使 用 sklearn 的 支持 向 量 机 模块 进行 训练 。 训 练 后 ， 看 看 验证 集 的 表现 : 


svc = SVC(random state-0, C-1) 

t-time.time() 

Svc.fit(X trainTs, y trainTs) 

t2 = time.time() 

print(round(t2-t, 2), 'Seconds to train SVC...") 
351.54 Seconds to train SVC... 


训练 完成 。 接 下 来 ， 用 划分 出 来 的 验证 集 查 看 模型 的 表现 。 


3.4.4 将 训练 好 的 分 类 器 运用 在 新 的 图 片 中 


开始 划分 数据 时 就 使 用 train_test_split(pd_SampClass, test_size=0.33, random_state=42)， 分 别 
划分 了 训练 集 以 及 验证 集 。 其 中 ，66% 的 数据 被 划分 为 训练 集 ， 用 于 上 一 步 的 模型 训练 。 
这 里 ， 将 用 剩 下 的 33% 作为 验证 集 来 检验 模型 的 表现 。 首 先 看 准确 率 : 


print('Test Accuracy of SVC = ', round(svc.score(X testT, y test), 4)) 
运行 结果 

# out: 

Test Accuracy of SVC = 0.9869 


98% 的 分 类 准确 率 还 是 不 错 的 。 接 下 来 选 十 个 样本 看 结果 : 


n predict = 10 
print('My SVC predicts: ', svc.predict(X testT[0:n predict])) 


# out: 


My SVC predicts: [1 1 1 0 0 O0 1 X 1] 
print('For these',n predict, 'labels: ', y test[0:n predict]) 
运行 结果 : 


# out: 


For these 10 labels: [1110000111] 
选 的 前 十 个 测试 样本 ， 结 果 都 是 预测 正确 。 最 后 看 AUC fü: 


pred = svc.predict(X testT) 


print ("AUC for Merge dataset = $1.2f,WMn" 多 (roc auc score(pred, y test))) 
运行 结果 : 


# out: 


AUC for Merge dataset = 0.99, 
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print(confusion matrix(pred, y _ test) ) 
运行 结果 : 
# out: 
L[2929 55] 
[ 22 2855]] 
发 现 大 多 数 预测 准确 ， 假 阳性 的 数量 是 真 阴 性 的 2 倍 多 ， 是 一 个 基本 可 用 的 模型 。 至 于 这 
个 模型 的 适用 性 如 何 ， 读 者 可 以 在 网 上 找 图 片 ，resize 到 64X64， 看 看 是 否 可 以 成 功 预 测 。 
最 后 ， 总 结 本 章 所 学 的 内 容 。 本 章 开 始 部 分 提 到 ， 要 用 机 器 学 习 方法 分 析 传统 图 像 数据 ， 
可 以 有 三 种 思路 : 
€ 手动 提取 重要 的 特征 ， 用 数字 表示 。 如 萝 尾 花 数据 集 ， 当 年 就 是 用 尺子 量 出 来 的 长 度 、 
宽度 ， 交 给 机 器 学 习 分 类 器 。 
。 用 简单 的 图 像 处 理 操作 ， 将 图 片 转换 为 少数 几 个 简单 的 轮 廉 特征 ， 交 给 机 器 学 习 分 类 器 。 
。 用 深度 神经 网 络 ， 让 深度 学 习 模 型 自动 提取 图 片 的 各 种 特征 ， 再 用 模型 自动 提取 的 特征 
训练 分 类 器 。 


本 章 介 绍 的 是 第 二 种 方法 ， 即 提取 简单 特征 ， 交 给 机 器 学 习 分 类 器 ， 如 支持 向 量 机 。 这 种 
方法 的 问题 想必 读者 也 有 切身 体会 : 


(1) “ 笨 ” 一 一 连 足 球 都 不 认识 ， 需 要 手动 提取 颜色 、 轮 廊 ， 然 后 过 滤 噪 声 ， 最 后 交 给 霍 
夫 变 换 检测 器 ， 计 算 机 才 认识 这 是 个 圆 形 。 

(2) “眼花 ”一 一 我 们 拿 到 的 是 一 个 高 像素 的 图 片 ， 需 要 将 图 片 的 信息 不 断 模糊 、 减 少 信 
息 量 ， 机 器 学 习 模型 才能 “认识 ”这 张 图 片 ， 才 能 用 这 种 简化 后 的 图 片 进行 模型 训练 。 


我 们 再 思考 一 下 ， 为 什么 传统 计算 机 模型 会 显得 很 “ 笨 ”， 而 且 眼 神 不 好 ? 一 个 很 重要 的 
原因 是 ， 传 统 的 机 器 学 习 模型 缺乏 特征 组 合 能 力 ， 尤 其 是 对 图 像 输入 ， 计 算 机 可 以 理解 单独 的 
一 个 像素 ， 但 是 把 单一 像素 与 周围 三 五 个 点 一 起 考虑 ， 计 算 机 模型 在 组 合 的 时 候 ， 似 乎 不 太 能 
把 握 这 一 组 点 的 关系 ， 所 以 我 们 会 用 opencv skimage 把 人 类 在 识别 诸如 球体 、 车 辆 这 样 的 物体 
的 关键 因素 提取 出 来 ， 然 后 将 提取 的 信息 交 给 机 器 学 习 模型 。 

接 下 来 介绍 的 基于 深度 神经 网 络 的 方法 ， 特 征 提取 部 分 就 并 不 完全 由 人 手动 完成 ， 计 算 机 
模型 可 以 帮助 数据 分 析 者 提取 诸如 球形 、 车 体 框架 这 样 的 特征 。 于 是 我 们 发 现 ， 相 比 传统 的 图 
像 处 理 技术 ， 计 算 机 不 “条 ”了 、 不 需要 人 提取 特征 了 ， 眼 神 也 变 好 了 ， 可 以 直接 识别 原始 图 
片 了 。 这 也 是 深度 学 习 技 术 总 是 和 人 工 智能 相提并论 的 一 个 很 重要 的 原因 。 
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通过 第 2、3 章 内 容 的 学 习 ， 读 者 对 于 机 器 学 习 以 及 图 像 处 理 的 基本 概念 应 该 有 了 大 致 的 了 
解 。 从 本 章 内 容 开 始 ， 我 们 将 逐步 开始 介绍 深度 学 习 相 关 的 内 容 ， 本 章 内 容 将 简要 介绍 深度 学 
习 “ 可 微分 编程 ”的 基本 框架 ， 然 后 介绍 如 何 用 简单 的 代码 实现 这 一 框架 。 


4.1 从 逻辑 回归 说 起 


第 2 章 提 到 传统 机 器 学 习 算法 时 ， 就 提 到 了 逻辑 回归 算法 。 


COD 随机 初始 化 一 组 。 ， 比 如 可 以 全 设 为 0， 当然 实际 上 不 推荐 这 样 。 

(2) 训练 集中 ， 逻 辑 回归 函数 里 ， 输 入 特征 x， 计 算 eTx， 得 到 预测 结果 y. 
(3) 计算 全 部 训练 集中 逻辑 回归 的 结果 》 和 实际 y 的 差别 。 

(4) 根据 上 一 步 的 差别 更 新 @ 。 

(5) 重复 (2) ~ (4) 若干 次 (iterations) 。 


这 个 算法 ， 可 以 用 如 下 简单 的 框架 表示 : 
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输入 层 逻辑 回归 函数 输出 层 





注意 ， 在 第 2 章 的 代码 中 ， 为 了 省 事 ， 将 这 里 的 x 输入 换 成 了 [x, 1]， 加 了 一 个 维度 ， 此 时 
两 个 输入 o. b 就 合并 成 了 一 个 新 的 @ 。 


其 次 图 中 的 双 箭头 代表 了 两 个 过 程 : 


从 左 到 右 、 从 下 到 上 的 箭头 代表 了 算法 第 二 步 得 到 预测 结果 的 过 程 (MSE 处 与 了 比较 除 
外 ， 是 第 三 步 ) 。 


。 ”从 右 往 左 、 从 上 往 下 的 箭头 代表 了 算法 第 四 步 中 更 新 算法 o, behiti. 
这 里 将 算法 框架 化 之 后 , 我 们 有 一 个 想法 , 就 是 能 不 能 把 这 个 框架 加 点 东西 , 比如 变 成 这 样 
输入 层 Es DE E 输出 层 





输入 层 逻辑 回归 函数 逻辑 回归 函数 输出 层 
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当然 , 读者 还 可 以 继续 思考 , 设计 新 的 框架 。 这 里 , 以 上 两 种 模型 成 了 逻辑 回归 的 “并 联 ”%“ 串 
联 ” 形 式 。 其 中 ，“ 并 联 ” 形 式 类 似 民 主 投票 ， 即 可 以 训练 多 个 逻辑 回归 模型 ， 每 个 模型 给 一 
个 测试 样本 预测 一 个 结果 ， 然 后 多 个 模型 汇总 结果 ， 比 如 7096 的 模型 都 通过 这 个 样本 属于 某 个 
分 类 ， 则 这 个 结果 就 被 预测 成 这 种 分 类 。 这 种 思路 逐渐 发 展 成 了 模型 的 聚合 (Ensemble) 方法 ， 
即 通过 多 个 弱 分 类 器 进行 组 合 ， 形 成 一 个 强 分 类 器 。 我 们 在 第 9、10 章 时 使 用 的 模型 融合 策略 
就 是 基于 这 种 思想 。 这 部 分 更 多 的 内 容 ， 有 兴趣 的 可 以 继续 阅读 周志 华 老师 的 《机 器 学 习 》 一 
书 做 更 深入 了 解 。“ 串 联 ” 形 式 则 不 断 加 大 同一 模型 的 复杂 程度 ， 继 而 通过 更 复杂 的 模型 实现 
单一 分 类 器 表现 的 提升 。 这 个 思路 逐渐 发 展 成 为 神经 网 络 算法 ， 并 且 随 着 网 络 深度 逐步 提升 ， 
模型 中 零件 由 乘法 +sigmoid 激活 函数 ， 换 成 卷 积 池 化 +relu 激活 函数 ， 更 是 进一步 芮 定 了 目前 
火热 的 深度 学 习 算法 的 基石 。 

本 章 讲 一 讲 如 何 用 简单 的 代码 来 实现 “串联 ”形式 的 计算 过 程 。 我 们 先 来 说 算法 ， 仍 然 基 
于 之 前 逻辑 回归 的 算法 : 


OD 随机 初始 化 一 组 。 ， 比 如 可 以 全 设 为 0， 当然 实际 上 不 推荐 这 样 。 
(2) 训练 集中 ， 逻 辑 回 归 函 数 里 输入 特征 x， 计 算 @Tx， 得 到 预测 结果 y。 
G) 计算 全 部 训练 集中 逻辑 回归 的 结果 3 和 实际 y 的 差别 。 

(4) 根据 上 一 步 的 差别 更 新 o 。 

(5) 重复 (2) ~ (4) 若干 次 (iterations) 。 


这 里 第 二 步 、 第 四 步 有 所 改动 。 其 中 第 二 步 无 非 是 加 了 一 层 计算 ， 比 较 好 办 ， 麻 烦 的 其 实 
是 第 四 步 ， 怎 么 更 新 多 组 数字 ? 之 前 一 组 数字 可 以 直接 求 损失 函数 对 应 参数 的 导数 ， 然 后 乘 以 
一 个 很 小 的 学 习 率 ， 减 去 这 个 数 ， 就 更 新 了 。 现 在 换 成 多 组 数字 ， 怎 么 分 别 求 损失 函数 对 这 些 
数字 的 导数 ? 如 果 说 ， 这 里 只 是 多 了 一 层 ， 直 接 数 学 推导 还 比较 容易 的 话 ， 再 多 几 层 ， 又 应 该 
怎么 办 ? 

仔细 想 一 想 ， 这 个 推导 的 过 程 也 并 非 无 规律 可 循 。 上 一 级 的 神经 网 络 梯度 输出 会 被 用 作 下 
一 级 计算 梯度 的 输入 ， 同 时 下 一 级 计算 梯度 的 输出 会 被 作为 上 一 级 神经 网 络 的 输入 。 于 是 就 思 
考 能 和 否 将 这 一 过 程 抽象 化 ， 做 成 一 个 可 以 自动 求 导 的 框架 ? OK, UJ TensorFlow 为 代表 的 一 系 
列 深度 学 习 框 架 正 是 根据 这 一 思路 诞生 的 。 





4.2 深度 学 习 框 架 


近 几 年 最 火 的 深度 学 习 框 架 是 什么 ? 毫 无 疑问 ，TensorFlow 高 票 当选 。 同 时 Caffe. 
PyTorch, MXNet, CNTK 用 得 也 非常 多 。 这 些 框架 虽 各 有 优势 ， 但 都 具有 一 些 普遍 特征 ， 据 
Gokula Krishnan Santhanam 总 结 ， 大 部 分 深度 学 习 框 架 都 包含 以 下 五 个 核心 组 件 : 


(D 张 量 (Tensor) 的 数据 结构 。 
(2) 基于 张 量 的 各 种 操作 。 
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G) 计算 图 (Computation Graph). 。 
(4) 自动 微分 (Automatic Differentiation) 工具 。 
(5) BLAS、cuBLAS、cuDNN 等 拓展 包 。 


HH, KÆ (Tensor) 可 以 理解 为 任意 维度 的 数组 一 一 比如 一 维 数组 被 称 作 向 量 (Vector)， 
二 维 的 被 称 作 和 矩阵 (Matrix) ， 这 些 都 属于 张 量 。 有 了 张 量 ， 就 有 对 应 的 基本 操作 ， 如 取 某 行 某 
列 的 值 、 张 量 乘 以 常数 等 。 运 用 拓展 包 其 实 就 相当 于 使 用 底层 计算 软件 加 速 运算 。 

我 们 今天 重点 介绍 的 就 是 计算 图 模型 和 自动 微分 两 部 分 。 首 先 谈 谈 如 何 实现 自动 求 导 ， 然 
后 用 最 简单 的 方法 实现 这 两 部 分 。 


43 基于 反 向 传播 算法 的 自动 求 导 


诸如 TensorFlow 这 样 的 深度 学 习 框架 的 入 门 ， 网 上 有 大 量 的 几 行 代码 、 几 分 钟 入 门 这 样 的 
资料 ， 可 以 快速 实现 手写 数字 识别 等 简单 任务 。 如 果 想 深入 了 解 TensorFlow 的 背后 原理 ， 可 能 
就 不 是 这 么 容易 的 事情 了 。 这 里 简单 地 谈 一 谈 这 一 部 分 。 

如 同 逻 辑 回 归 模 型 的 训练 时 ， 参 数 @ 是 随机 初始 化 后 、 不 断 训 练 优化 得 到 的 一 样 ， 当 我 们 
拿 到 数据 、 训 练 深度 神经 网 络 时 ， 网 络 中 的 所 有 参数 同样 也 都 是 变量 。 训 练 模型 的 过 程 就 是 如 
何 得 到 一 组 最 佳 变量 ， 使 预测 最 准确 的 过 程 。 这 个 过 程 实际 上 就 是 ， 输 入 数据 经 过 正 向 传播 ， 
变 成 预测 ， 然 后 预测 与 实际 情况 的 误差 反 向 传播 误差 回来 ， 更 新 变量 。 如 此 反复 多 次 ， 得 到 最 优 
的 参数 。 这 里 就 会 遇 到 一 个 问题 ， 神 经 网 络 这 么 多 层 ， 如 何 保证 正 向 、 反 向 传播 都 可 以 正确 运行 ? 

值得 思考 的 是 ， 这 两 种 传播 方式 都 具有 管道 传播 的 特征 。 正 向 传播 一 层 一 层 算 就 可 以 了 ， 
上 一 层 网 络 的 结果 作为 下 一 层 的 输入 。 反 向 传播 过 程 可 以 利用 链 式 求 导 法 则 从 后 往 前 ， 不 断 将 
误差 分 挫 到 每 一 个 参数 的 头 上 。 我 们 举 一 个 简单 的 例子 来 说 明 这 里 如 何 实现 正 向 、 反 向 传播 。 

首先 看 正 向 传播 。 给 定 函数 e = (a 十 b)(b 十 1)， 当 a=2、b=1 时 ， 进 行 正 向 传播 ， 其 实 就 
是 小 学 乘法 ， 即 将 a=2、b=1 带 入 ,，e=(a+ 站 +1 =3Xx2=6。 反 向 传播 过 程 就 麻烦 一 些 
了 ， 我 们 暂且 可 以 将 这 个 式 子 直接 运用 求 导 法 则 进行 求 导 。 

直接 求解 导数 可 能 只 适合 一 般 的 函数 ， 因 为 大 部 分 人 对 复杂 函数 进行 求 导 是 一 件 痛苦 的 事 
情 。 其 实 计算 机 可 以 借助 一 定 的 方式 进行 自动 求 导 。1985 年 Rumelhart、Hinton 和 Williams 提 
出 了 反 向 传播 算法 ， 就 基于 计算 图 以 及 链 式 求 导 法 则 构建 了 复杂 函数 自动 求 导 的 框架 。 

反 向 传播 算法 分 为 两 步 : 

第 一 步 是 进行 正 向 计算 ， 但 是 这 里 有 个 额外 要 求 ， 就 是 每 计算 一 步 ， 都 需要 对 该 步 又 各 个 变 
量 的 导数 进行 记录 。 如 图 4-1 所 示 ， 比 如 计算 c = a +b 的 时 候 ， 除 了 要 计算 出 c= 1+2 =3， 
还 需要 求 出 演 以 及 绎 。 计 算出 正 向 的 结果 以 及 反 向 的 导数 之 后 ， 将 这 两 组 数 存在 计算 图 中 供 后 
续 步骤 使 用 。 其 中 ， 正 向 的 结果 c=3 将 被 用 于 e = cx 的 计算 ， 反 向 的 结果 至 以 及 至 将 被 用 
于 后 续 反 向 的 计算 。 
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第 二 步 是 反 向 的 梯度 计算 。 我 们 学 微 积分 的 时 候 ， 知 道 有 一 个 反 向 求 导 法 则 ， 在 这 里 
e = (a  b)(b + DHR FÆR H: 
ðe ðeðc 
ða  ócóa 
ðe ððeðc ððeðd 
Jb acab adab 


© 计算 e= c*d 
e=6 





图 4-1 反 向 传播 第 一 步 计算 一 一 保存 各 步骤 导数 (RA http://colah.github.io/posts/2015-08-Backprop/) 


现在 需要 做 的 就 是 接 出 到 以 及 至 ， 找 出 这 两 个 值 就 可 以 求 出 到 。 此 时 ， 这 两 个 值 在 第 一 
步 正 向 计算 时 已 经 算出 来 了 ， 然 后 保存 在 计算 图 里 ， 所 以 这 里 直接 将 值 从 计算 图 中 取出 来 就 可 
以 了 。 整 个 过 程 如 图 4-2 所 示 。 








de/de=1 







@de/db= 
(de/dc)*(dc/db) « 
(de/dd)*(dd/db) - 5 





(de/dc)*(dc/da) = 2 


图 4-2 反 向 传播 第 二 步 计 算 一 一 计算 每 一 步 的 梯度 〈 改 编 自 http://colah.github.io/posts/2015-08-Backprop/) 


78 


第 4 章 继往开来 一 一 使 用 深度 神经 网 络 框架 


我 们 考虑 如 何 用 计算 机 程序 表示 这 个 过 程 。 发 现 其 实 可 以 将 各 种 计算 方法 〈 加 法 、 乘 法 、 
逻辑 回归 函数 等 ) 抽象 成 一 个 对 象 , 这 个 对 象 有 两 种 方法 , 一 种 是 正 向 的 , 即 根据 输入 得 到 输出 ， 
类 似 输入 1+1 后 输出 2， 另 一 种 则 是 反 向 的 ， 已 知 当前 值 ， 输 出 对 各 个 输入 量 的 导数 。 然 后 我 
们 用 各 种 实际 操作 来 继承 这 个 对 象 ， 比 如 乘法 操作 的 正 向 就 是 输入 的 两 个 数字 相 乘 、 反 向 就 是 
返回 另 一 个 乘 数 ， 加 法 操作 的 正 向 就 是 两 个 数字 相 加 、 反 向 返回 常数 1。 

接 下 来 ， 以 Torch 框架 的 源码 为 例 来 解释 一 下 如 何 具 体 实 现 。 列 举 Torch 的 例子 ， 是 因为 
Torch 的 代码 文件 结构 比较 简单 ，TensorFlow 的 情况 Torch 比较 近似 ， 但 文件 结构 相对 更 加 复杂 ， 
有 兴趣 的 可 以 仔细 读 读 相 关 文章 (http://www.cnblogs.com/ya062995/p/5773018.html》。 

我 们 看 Torch nn 模块 的 源码 Chttps://github.com/torch/nn/blob/master/) . nn 模块 包括 了 神经 
网 络 (neural network, nn) 的 各 种 单元 ， 包 括 矩 阵 相 乘 、 卷 积 、sigmoid 函数 等 。 我 们 发 现 几 乎 
这 个 模块 目录 下 的 所 有 .lua 文件 都 有 这 两 个 函数 : 


# lua 
function xxx:updateOutput (input) 
input.THNN.xxx updateOutput ( 
input:cdata(), 
self.output:cdata() 
) 
return self.output 


end 


function xxx:updateGradInput (input, gradOutput) 
input.THNN.xxx updateGradInput ( 
input:cdata(), 
gradOutput:cdata(), 
self.gradInput:cdata(), 
self.output:cdata() 
) 
return self.gradInput 
end 


这 里 其 实 是 相当 于 留 了 两 个 方法 的 定义 ， 没 有 写 具体 功能 。 有 具体 功能 的 代码 在 ./lib/THNN/ 
generic 目录 Chttps://github.com/torch/nn/tree/master/lib/THNN/generic) 中 用 C 语言 实现 ， 有 具体 以 
Sigmoid 函数 为 例 。 


我 们 知道 Sigmoid 函数 的 形式 是 : 
1 
s iper 
代码 实现 起 来 是 这 样 : 
DEC. 


void THNN (Sigmoid updateOutput) ( THNNState 
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*state, THTensor 
*input, THTensor 


*output) 


THTensor (resizeAs) (output, input); 
TH TENSOR APPLY2 (real, output, real, input, 
*output data = 1./(1.* exp(- *input data)); 
FE 
) 


Sigmoid 函数 求 导 变 成 : 
s'(x) = s(x)(1— s(x)) 
所 以 ， 这 里 在 实现 的 时 候 就 是 : 


ZE 
void THNN (Sigmoid updateGradInput)( 
THNNState *state, 
THTensor *input, 
THTensor *gradOutput, 
THTensor *gradInput, 
THTensor *output) 
t 
THNN CHECK NELEMENT (input, gradOutput); 
THTensor (resizeAs) (gradInput, output); 
TH TENSOR APPLY3(real, gradInput, real, gradOutput, real, output, 
real z = * output data; 
*gradInput data = *gradOutput data * (1. - z) * z; 
); 
} 


注意 ， 在 updateOutput K Zt F, output data Æ 5$ 5 7r 34, input data 在 等 号 右边 ， 在 
updateGradInput 函数 中 ，gradInput data 在 等 号 左边 ，gradOutput data 在 等 号 右边 。 这 里 ， 
output = f(input) 对 应 的 是 正 向 传播 ，input = f(output) 对 应 的 是 反 向 传播 。 


4.4 简单 的 深度 神经 网 络 框架 实现 





我 们 谈 谈 如 何 实现 一 个 类 似 TensorFlow 的 计算 框架 ， 就 是 说 可 以 跳 过 这 一 部 分 、 直 接 使 用 
现成 的 框架 , 如 果 现 有 框架 缺乏 一 些 新 的 内 容 时 , 一 定 的 代码 实现 能 力 就 会 显得 比较 重要 。 因 此 ， 
这 里 借用 网 上 的 一 个 小 型 开源 框架 Miniflow 代码 Chttps://github.com/BillZito/miniflow) 中 的 核心 
内 容 来 简单 谈 谈 如 何 实现 深度 神经 网 络 框架 ， 继 而 改造 第 2 章 中 的 萝 尾 花 数据 集 的 逻辑 回归 算 
法 的 代码 。 这 个 小 型 开源 项 目 同样 来 自 优 达 学 城 。 
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上 一 节 提 到 过 ， 深 度 神经 网 络 需要 实现 五 大 核心 组 件 ，Miniflow 的 程序 选择 了 相对 简单 而 
又 好 实现 的 计算 图 并 且 重 写 了 自动 微分 部 分 ， 如 表 4-1 所 示 。 


表 4-1 五 大 核心 组 件 的 实现 方法 














核心 组 件 实现 方法 

张 量 (Tensor) 使 用 numpy 库 

基于 张 量 的 各 种 操作 使 用 numpy 库 
BLAS、cuBLAS、cuDNN 等 拓展 包 借助 numpy 库 使 用 BLAS， 不 使 用 GPU 
计算 图 (Computation Graph ) 代码 通过 Kahn 算 法 实现 





自动 微分 (Automatic Differentiation) 工具 代码 通过 链 式 求 导 法 则 实现 


接 下 来 的 部 分 将 用 Miniflow 框架 搭建 这 样 的 一 个 神经 网 络 : 





输入 层 逻辑 回归 函数 逻辑 回归 函数 输出 层 


- 





重新 分 析 第 2 章 逻 辑 回 归 高 尾 花 分 类 的 数据 。 


4.4.1 数据 结构 部 分 


首先 实现 一 个 父 类 Node， 然 后 基于 这 个 父 类 依次 实现 Input Linear Sigmoid 等 模块 。 这 里 运 
用 了 简单 的 Python Class 继承 。 


具体 而 言 ， 首 先 写 一 个 Node 类 ， 这 个 类 有 forward backward 两 种 方法 ， 但 是 这 两 种 方法 先 
空 着 不 写 。 我 们 基于 Node 类 实现 Input Linear 这 些 模块 时 ， 需 要 将 forward 和 backward 两 种 方 
法 针对 每 个 模块 分 别 重 写 。 


import numpy as np 


import matplotlib.pyplot as plt 


$matplotlib inline 
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# python 
class Node (object): 
def | init (self, inbound nodes-[]): 
self.inbound nodes — inbound nodes 
self.value = None 


self.outbound nodes - [] 


self.gradients - () 


for node in inbound nodes: 


node.outbound nodes.append (self) 


def forward(self): 


raise NotlImplementedError 


def backward (self): 


raise NotlImplementedError 


class Input (Node): 
def _ init (self): 
Node. init (self) 


def forward(self): 


pass 


def backward (self): 
self.gradients - (self: 0) 
for n in self.outbound nodes: 


self.gradients[self] += n.gradients[self] 


class Linear (Node): 
def init (self, X, W, b): 
Node. (init (self, [X, W, b]) 


def forward(self): 
X = self.inbound nodes[0].value 
W = self.inbound nodes[1].value 
b = self.inbound nodes[2].value 
self.value = np.dot(X, W) + b 


def backward (self): 
self.gradients = (n: np.zeros like(n.value) for n in self. 
inbound nodes] 
for n in self.outbound nodes: 
grad cost — n.gradients[self] 
self.gradients[self.inbound nodes[0]] *- np.dot(grad cost, 


self.inbound nodes[1].value.T) 
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self.gradients[self.inbound nodes[1]] += np.dot (self. 
inbound nodes[0].value.T, grad cost) 
self.gradients[self.inbound nodes[2]] += np.sum(grad cost, 


axis-0, keepdims-False) 


class Sigmoid (Node): 
def init (self, node): 


Node. init (self, [node]) 


def _sigmoid (self, x): 
return 1. / (1. + np.exp(-x)) 


def forward(self): 
input value = self.inbound nodes[0].value 


self.value = self. sigmoid(input value) 


def backward (self): 
self.gradients - (n: np.zeros like(n.value) for n in self. 
inbound nodes] 
for n in self.outbound nodes: 
grad cost - n.gradients[self] 
sigmoid = self.value 
self.gradients[self.inbound nodes[0]] += sigmoid * (1 - 
sigmoid) * grad cost 


class MSE (Node): 
def init (self, y, a): 
Node. (init (self, [y, al) 


def forward(self): 
y 7 self.inbound nodes[0].value.reshape(-1, 1) 


a = self.inbound nodes[1].value.reshape(-1, 1) 
self.m — self.inbound nodes[0].value.shape[0] 
self.diff = y - a 

self.value = np.mean(self.diff**2) 


def backward(self): 
self.gradients[self.inbound nodes[0]] 


(2 / self.m) * self.diff 


self.gradients[self.inbound nodes[1]] (-2 / self.m) * self.diff 


[i 


44.2 计算 图 部 分 


接 下 来 定义 计算 图 。 这 里 定义 计算 图 ， 需 要 做 到 两 点 ， 首 先是 计算 图 中 各 个 节点 中 需要 保 
存 哪些 参数 ， 其 次 是 这 些 节 点 在 计算 的 过 程 中 采用 什么 样 的 计算 顺序 。 比 如 之 前 的 例子 中 ， 要 
计算 e 就 要 先 把 (atb) UR OH) 的 结果 分 别 算出 来 ， 以 及 这 些 结果 分 别 依赖 哪些 东西 。 
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多 说 一 点 ，TensorFlow 使 用 了 静态 图 ， 对 C 程序 编译 比较 熟悉 的 读者 应 该 意识 到 了 ， 这 里 





其 实 很 类 似 编写 Makefile， 不 同 的 是 通过 Makefile 定义 了 子 程序 之 间 的 相互 依赖 关系 ， 编 译 某 
个 子 程序 之 前 ， 需 要 完成 这 个 子 程序 需要 依赖 的 所 有 程序 的 编译 。 实 际 上 并 非 所 有 的 深度 学 习 
框架 都 是 这 样 的 ，Torch 的 执行 过 程 就 是 动态 的 ，TensorFlow 基于 静态 图 ， 这 与 TensorFlow 的 


作者 Jeff Dean 精通 编译 原理 有 很 大 的 关系 。 


我 们 这 里 在 定义 计算 图 各 个 节点 之 间 的 计算 顺序 时 使 用 Kahn 算法 作为 调度 方法 ， 就 是 首 
先 TensorFlow 的 各 个 模块 会 生成 一 个 有 向 无 环 图 ， 每 个 模块 作为 一 个 节点 ， 模 块 之 间 相 互 依赖 


关系 作为 图 的 边 ， 如 图 4-3 所 示 。 





(图 片 来 源 : http;//www.geeksforgeeks.org/topological-sorting/ ) 


图 4-3 计算 图 中 各 个 节点 之 间 存在 一 定 的 依赖 顺序 


在 计算 过 程 中 ， 几 个 模块 存在 着 相互 依赖 关系 ， 比 如 要 计算 模块 1， 就 必须 完成 模块 3 和 
模块 4， 而 要 完成 模块 3， 就 需要 在 之 前 按 顺序 完成 模块 5、2; 这 里 可 以 使 用 Kahn 算法 作为 调 


度 算法 (下 面 的 topological_sort 函数 ) ， 从 计算 图 中 推导 出 类 似 5->2->3->4->1 的 计算 顺序 。 


# python 
def topological sort(feed dict): 
input nodes - [n for n in feed dict.keys()] 
ier es ib 
nodes = [n for n in input nodes] 
while len (nodes) > 0: 
n = nodes.pop (0) 
if n not in G: 
G[n] = {'in': set(), 'out': set()} 
for m in n.outbound_nodes: 
if m not in G: 
G[m] = {'in': set(), 'out': set()} 
G[n] ['out'] .add (m) 
G[m] ['in'].add (n) 


nodes.append (m) 
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S = set(input nodes) 
while len(S) » 0: 
n = $.pop() 
if isinstance(n, Input): 


n.value = feed dict[n] 


L.append (n) 
for m in n.outbound nodes: 
G[n] ['out'].remove (m) 
G[m] ['in'].remove (n) 
if ten(G[m] ["in"]) = 0: 
S.add (m) 
return L 


4.4.3 使 用 方法 


定义 完 图 的 模块 以 及 执行 顺序 的 调度 方式 之 后 ， 我 们 开始 逐个 模块 地 进行 正 向 计算 、 反 向 
RẸ: 


def forward and backward (graph): 
for n in graph: 


n.forward() 


tor noinographbs:-tl: 
n.backward() 


首先 ， 由 图 的 定义 生成 执行 顺序 : 
graph = topological_sort (feed dict) 
其 次 ， 对 各 个 模块 顺 次 执行 正 向 计算 反 向 求 导 : 


forward and backward (graph) 


最 后 ， 简 单 介绍 一 下 随机 梯度 下 降 。 随机 梯度 下 降 将 在 第 7 章 详细 讲解 , 这 里 只 是 提前 使 用 ， 
让 读者 感受 一 下 。 其 核心 思想 是 , 在 第 2 章 中 用 的 是 所 有 150 个 样本 的 数据 ,训练 逻辑 回归 模型 ， 
通过 计算 导数 作为 梯度 乘 以 学 习 率 ， 更 新 参数 ww ， 然 后 多 次 重复 这 个 过 程 。 这 里 升级 成 使 用 随 


机 梯度 下 降 的 话 就 不 再 使 用 全 部 样本 ， 而 是 每 次 从 150 个 样本 中 随机 抽样 若干 ， 代 表 所 有 样本 
来 训练 参数 。 





def sgd update(trainables, learning rate-le-2): 


for t in trainables: 
t.value = t.value - learning rate * t.gradients[t] 


接 下 来 使 用 这 个 模型 。 同 样 使 用 第 2 EB S EAE 4E: 
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from sklearn.utils import resample 


from sklearn import datasets 
*$matplotlib inline 


data = datasets.load iris() 


X = data.data 
y = data.target 
y [y 72] = 1 * 0 for virginica, 1 for not virginica 


print(X .shape, y .shape) 


运行 结果 : 


# out: 
(150,4), (150,) 


我 们 根据 前 文 提 到 的 “串联 逻辑 回归 ”的 图 纸 ， 用 写 的 模块 来 定义 这 个 神经 网 络 : 
输入 层 逻辑 回归 函数 逻辑 回归 函数 输出 层 





np.random.seed (0) 

n features = X .shape[1] 
n class = 1 

n hidden - 3 


X, y = Input(), Input () 
W1, bl - Input(), Input() 
W2, b2 - Input(), Input() 


11 = Linear (X, Wl, b1) 
sl = Sigmoid(11) 
12 Linear(sl, W2, b2) 
tl = Sigmoid(12) 
cost = MSE(y, tl) 


4.4.4. 训练 模型 
接 下 来 初始 化 参数 值 ， 定 义 训练 参数 进行 训练 : 
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# 随机 初始 化 参数 值 


Wl 0 = np.random.random(X .shape[1]*n hidden).reshape([X .shape[1], n 


hidden]) 
W2 0 = np.random.random(n hidden*n class).reshape([n hidden, n class]) 
bl 0 = np.random.random(n hidden) 
b2 0 = np.random.random(n class) 
# 将 输入 值 带 入 算 子 


feed dict = { 
X: X, MIU. 
Wl: Wl 0, bl: bl O, 
W2: W2 0, b2: b2 0 
) 


# 训练 参数 

# 这 里 训练 100 轮 Ceprochs) ， 每 轮 抽 4 个 样本 (batch size) 训练 150/4 次 (steps_ 
per eproch) ， 学 习 率 0.1 

epochs = 100 

m = X .shape[0] 

batch size = 4 

steps per epoch - m // batch size 

lr = 0.1 


graph = topological sort (feed dict) 
trainables = [W1l, bl, W2, b2] 


1 Mat Wl = [Wl 0] 
1 Mat W2 = [W2 0] 
1 loss - [] 


for i in range (epochs): 
loss = 0 
for j in range(steps per epoch): 
X batch, y batch = resample(X , y , n samples-batch size) 
X.value = X batch 
y-value = y batch 


forward and backward (graph) 
sgd update (trainables, lr) 
loss += graph[-1].value 


1 loss.append (loss) 
if i $ 10 == 9: 
print("Eproch $d, Loss = $1.5f" $ (i, loss)) 
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运行 结果 : 
# out: 
Eproch 9, Loss = 7.76529 
Eproch 19, Loss = 8.26954 
Eproch 29, Loss = 7.45415 
Eproch 79, Loss = 7.32178 


Eproch 89, Loss = 3.70127 
Eproch 99, Loss = 1.19249 


模型 的 Loss 误差 值 逐步 减 小 ， 说 明 模 型 预测 的 结果 与 真实 情况 的 误差 也 在 逐步 减少 。 可 以 
画 一 下 整体 情况 ， 如 图 4-4 所 示 。 

plt.plot(l loss) 

plt.title("Cross Entropy value") 


plt.xlabel("Eproch") 
plt.xlabel ("Loss") 


Cross Entropy value 








20 40 & 80 100 


图 4-4 模型 预测 结果 与 真实 情况 误差 Cy 轴 ) 随 着 训练 次 数 (x 轴 ) 增加 逐渐 减 小 




















最 后 用 模型 预测 所 有 数据 的 情况 ， 如 图 4-5 所 示 。 





X.value 


x 


Y. 


M 


y.value 
for n in graph: 


n.forward() 


plt.plot(graph[-2].value.ravel()) 
plt.title("Predict for all 150 Iris data") 
plt.xlabel("Sample ID") 
plt.ylabel("Probability for not a virginica") 
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Predict for all 150 Iris data 





Probability for not a virginica 
e 
5 











0 2 4) © 8 10 10 M0 
Sample ID 


图 4-5 150 PEREA Ox 轴 ) 是 否 是 virginica 分 类 结果 的 概率 














得 到 了 与 第 2 章 类 似 的 结果 ， 即 后 100 个 样本 不 是 virginica 的 概率 很 高 ， 与 实际 情况 相符 。 
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模型 元 件 


从 本 章 开 始 ， 我 们 正式 介绍 如 何 使 用 深度 学 习 框架 来 进行 图 像 的 处 理 。 

首先 回顾 一 下 前 几 章 的 内 容 。 我 们 在 第 2 章 介绍 了 机 器 学 习 的 一 些 基本 概念 ， 包 括 数据 集 
的 划分 、 数 据 的 挖掘 、 模 型 的 训练 以 及 如 何 评价 训练 模型 的 准确 性 。 然 后 第 3 章 介 绍 了 图 像 处 
理 的 基本 方法 ， 包 括 基 于 颜色 、 基 于 形态 的 特征 处 理 ， 接 下 来 进一步 介绍 如 何 使 用 机 器 学 习 方 
法 处 理 这 些 特征 。 接 着 ， 第 4 章 先 从 第 2 章 的 逻辑 回归 引申 出 深度 学 习 框 架 的 设计 思想 ， 实 现 
了 简单 的 神经 网 络 算法 。 





第 5 章 排列 组 合 一 一 深度 神经 网 络 框架 的 模型 元 件 








我 们 可 以 进一步 地 将 深度 神经 网 络 框架 ， 结 合 基 本 的 图 像 处 理 ， 利 用 深度 神经 网 络 ， 对 图 
像 进行 分 类 、 分 割 等 处 理 。 在 这 个 过 程 中 ， 我 们 可 以 将 处 理 过 程 概括 成 一 个 三 段 论 : 


。 ”处 理 的 内 容 是 什么 一 一 如 何 将 图 像 传 入 深度 神经 网 络 
。 为 什么 可 以 得 到 这 样 的 结果 一 一 使 用 的 是 什么 样 的 神经 网 络 结构 
。 ”训练 过 程 应 该 怎么 做 一 一 网 络 参数 的 优化 


我 们 在 第 4 章 设 计 了 Input Linear Sigmoid MSE 几 个 元 件 ， 组 装 出 一 个 两 层 的 神经 网 络 。 那 
么 能 和 否 将 上 一 章 的 简单 神经 网 络 进一步 地 升级 成 深度 神经 网 络 呢 ? 当然 可 以 ， 此 时 需要 更 多 的 
零件 ， 然 后 组 装 成 为 更 深 的 网 络 。 这 些 零 件 可 以 大 致 概括 为 : 


。 常用 层 

> Dense 

> Activation 

> Dropout 

> Flatten 
e XE 

> Conv2D 

>  Cropping2D 

>  ZeroPadding2D 
e XE 

>  MaxPooling2D 

>  AveragePooling2D 

>  GlobalAveragePooling2D 
e ”正则 化 层 

>  BatchNormalization 
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日” 反 卷 积 层 Keras 中 在 卷 积 层 部 分 ) 
>  UpSampling2D 
> MRE 
>  SimpleRNN 
> LSTM 
> GRU 


需要 强调 一 下 ， 这 些 层 与 之 前 一 样 ， 都 同时 包括 了 正 向 传播 、 反 向 传播 两 条 通路 。 我 们 这 
里 只 介绍 比较 好 理解 的 正 向 传播 过 程 ， 基 于 其 导数 的 反 向 过 程 同 样 也 是 存在 的 ， 其 代码 已 经 包 
括 在 TensorFlow 的 框架 中 对 应 的 模块 里 ， 可 以 直接 使 用 。 

当然 , 还 有 更 多 的 零件 , 具体 可 以 去 Keras XH http:/keras-cn.readthedocs.io/en/latest/ 中 参阅 。 
我 们 这 里 选 一 些 常用 的 进行 简单 的 介绍 。 


5.1 常用 层 





5.1.1 Dense 

全 连接 层 (Dense) 就 是 第 4 章 中 提 到 的 Linear 层 ， 即 y= ox+b， 计 算 乘 法 以 及 加 法 。 由 
于 矩阵 乘法 的 特点 ， 我 们 可 以 通过 乘法 操作 ， 连 接 所 有 输入 点 以 及 输出 点 ， 因 此 也 被 称 作 全 连 
接 层 。 
5.1.2 Activation 


激活 层 (Activation) 在 第 4 章 中 同样 出 现 过 ， 即 sigmoid 层 。 当 然 ， 激 活 层 不 止 有 sigmoid 
这 一 种 形式 ， 比 如 有 thanh、ReLU、softplus， 如 图 5-1 所 示 。 


5- 










— sigmoid 
— thanh 

4| — ReLU 

= softplus 














-5 0 5 


5-1 常见 的 激活 层 函 数 〈 图 片 来 源 : http://m.blog.csdn.net/article/details?id—52890463) 
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其 中 ，ReLU 层 可 能 是 深度 学 习 时 代 最 重要 的 一 种 激发 函数 ， 在 2011 年 首次 被 提出 。 由 公 
式 可 见 ， 相 比 于 早期 的 thanh 与 sigmoid 函数 ，ReLU 有 两 个 重要 的 特点 其 一 是 在 较 小 处 有 一 
个 下 限 0， 但 是 较 大 值 ReLU 函数 没有 取 值 上 限 ; 其 二 是 ReLU 层 在 0 处 不 可 导 ， 是 一 个 非 线 性 
的 函数 ， 


y=xx>0 


relu(x) = } 一 QO,x<0 


即 y —x* (x > 0) 时 对 其 求 导 ， 其 结果 是 : 


Orelu(x) i p =1z>0 
Ox y=0,x<0 
函数 本 身 取 值 没有 上 限 、 求 导 后 大 于 零 时 导数 固定 ， 相 比 之 前 的 激活 函数 ， 在 深度 神经 网 
络 中 ， 这 是 一 个 非常 重要 的 优点 一 一 sigmoid 激发 层 的 导数 在 数值 的 绝对 值 很 高 时 是 接近 0 的 ， 
只 有 在 大 概 [-5, 5 的 区 间 内 才 会 取 一 个 较 大 的 值 ， 这 就 会 导致 多 层 神 经 网 络 在 传递 误差 时 ， 在 
sigmoid 层 乘 以 一 个 很 小 的 数 ， 导 致 误差 的 梯度 消失 。 而 如 果 换 成 ReLU 层 ， 传 入 的 导数 在 其 大 
于 0 的 状态 下 会 直接 返回 输入 误差 ， 这 样 误差 的 梯度 就 可 以 在 各 层 中 得 到 保留 ， 从 而 实现 多 层 
神经 网 中 误差 从 底层 向 顶层 的 有 效 传递 。 





5.1.3 Dropout 


失 活 (Dropout) 层 〈 见 图 5-2) 指 的 是 在 训练 过 程 中 ， 每 次 更 新 参数 时 将 会 随机 断 开 一 定 
百分比 Gate) 的 输入 神经 元 。 这 种 方式 与 第 2 章 提 到 的 正则 化 有 相似 支持 一 一 正则 化 会 给 所 有 
参数 乘 以 一 个 系数 , 共同 计算 损失 函数 ,为 了 避免 损失 函数 过 高 ,模型 参数 的 数量 、 数 值 都 会 缩小 。 
而 这 里 使 用 Dropout 随机 断 开 连 接 , 就 等 于 是 削减 了 参数 的 数量 , 这 种 方式 可 以 用 于 防止 过 拟 合 。 





(a) Standard Neural Net (b) After applying dropout 


(图 片 来 源 : Dropout: A Simple Way to Prevent Neural Networks from Overfitting) 
图 5-2 失 活 层 的 基本 原理 
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5.1.4 Flatten 


展开 层 (Flatten) 指 的 是 将 高 维 的 张 量 (Tensor， 如 二 维 的 矩阵 、 三 维 的 3D 和 矩阵 等 ) 变 成 
一 个 一 维 张 量 向量 ) 。Flatten 层 通常 位 于 连接 深度 神经 网 络 的 卷 积 层 部 分 以 及 全 连接 层 部 分 。 





5.2 卷 积 层 


我 们 在 第 2 章 的 结尾 提 到 : 


RRR EIE, ICE RPÁEIH I REI. RÆ BIRMA, RHET DUBIE E I — 
TR, IUBTEE  IRS RUBIBIL fa -ERE THBEBUBUB EA IIR S IPANACRE 
TEE HEAR. 


使 用 卷 积 层 的 目的 ， 就 是 组 合 周围 多 个 像素 、 进 一 步 提取 特征 ， 再 配合 池 化 进一步 整合 。 
这 一 “局 部 相近 像素 点 具有 相近 含义 、 可 以 被 组 合 ”的 观点 , 在 《深度 学 习 》 中 被 描述 成 一 种 “无 
限 强 的 先 验 ”。 

5.2.1 Conv2D 


这 里 以 2D 的 卷 积 神经 网 络 为 例 来 逐一 介绍 卷 积 神经 网 络 中 的 重要 函数 。 比 如 使 用 一 个 形 
状 如 下 的 卷 积 核 : 


扫描 这 样 一 个 二 维 矩阵 : 

















如 果 定 义 卷 积 的 步 长 为 1， 不 扫描 边缘 区 域 ， 则 将 进行 9 次 卷 积 计算 ， 其 中 第 1]、2、3、9 
次 卷 积 操作 的 过 程 CE) 及 卷 积 的 结果 E) 如 图 5-3 所 示 。 
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图 5-3 卷 积 层 扫 描 图 像 的 过 程 〈 图 片 来 源 ，kdnuggets) 


HF Keras 的 Conv2d 函数 不 支持 指定 卷 积 核 , 我 们 用 TensorFlow 底层 代码 来 重复 一 下 图 5-3 
中 的 卷 积 过 程 : 


import tensorflow as tf 


import numpy as np 


x input = np.array([ 
[1,1,1,0,0], 
[0,1,1,1,0], 
[0,0,1,1,1], 
[0,0,1,1,0], 
[0,1,1,0,0] 

], dtype-np.float32) 


X kernel 1 - np.array([ 
[1,0,1], 
[0,1,0], 
[1,0,1] 

], dtype-np.float32) 


tf x input = tf.constant(np.reshape(x input, newshape-[1,5,5,1])) 


tf x kernel 1 = tf.constant(np.reshape(x kernel 1, newshape-[3,3,1,1])) 


yl = tf.nn.conv2d(tf x input, tf x kernel 1, strides-[1,1,1,1], 
padding-"VALID") 
with tf.Session() as sess: 
sess.run(tf.global variables initializer()) 


[yl cov] = sess.run([yll) 


yl cov[0,:,:,0] 
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运行 结果 : 
# out: 
array([[ 4., 3., 4.], 
[ 2., 4., 3.], 
[ 2., 3., 4.]], dtype=float32) 


如 果 使 用 Keras, 其 输入 参数 定义 如 下 ， 可 以 看 到 Keras 可 以 指定 卷 积 核 的 大 小 、 层 数 ， 
但 没有 像 底层 函数 tÉnn.conv2d 一 样 提供 指定 卷 积 核 的 接口 : 


Conv2D(filters, kernel size, strides-(1, 1), padding-'valid', ...) 


其 中 : 


filters 指 的 是 输出 的 卷 积 层 的 层 数 。 通 常 看 见 的 介绍 资料 都 只 显示 输出 了 一 个 卷 积 层 ， 
Ep filters =1， 而 实际 运用 过 程 中 卷 积 层 会 接受 多 层 输入 ， 然 后 返回 的 结果 也 是 多 层 输出 。 
接 下 来 将 仔细 讨论 这 部 分 内 容 〈 见 下 文 错误 2) 。 

kernel size 指 的 是 卷 积 层 的 大 小 ， 是 一 个 二 维 数组 ， 分 别 代表 卷 积 层 有 几 行 、 几 列 。 
strides 指 的 是 卷 积 核 在 输入 层 扫描 时 ， 在 xy 两 个 方向 每 间隔 多 长 执行 一 次 扫描 。 
padding 指 的 是 是 否 扫描 边缘 。 如 果 是 valid， 则 仅仅 扫描 已 知 的 矩阵 ， 即 忽略 边缘 。 如 
果 是 same， 则 将 根据 情况 在 边缘 补 上 0， 并 且 扫 描 边 缘 ， 使 得 输出 的 大 小 等 于 input size 
/ strides。 


关于 卷 积 的 参数 ， 有 几 个 常见 的 错误 观点 : 


错误 1: 深度 神经 网 络 中 ， 卷 积 核 的 权重 是 固定 的 (如 上 面 3X3 卷 积 核 中 对 角 线 部 分 是 
1， 其 他 是 0， 又 或 者 传统 图 像 处 理 中 使 用 的 高 斯 分 布 、Sobel 算 子 等 经 典 卷 积 核 ) 。 
错误 2: 假如 卷 积 层 有 了 个 输入 维度 ， 如 图 片 的 RGB ELE m = 3， 用 个 卷 积 层 扫 
描 输 入 图 层 ， 则 输出 层 一 共 是 mXn。 

错误 3: 可 以 像 训练 逻辑 回归 一 样 ， 随 便 初始 化 一 个 卷 积 核 的 权重 以 后 ， 扔 给 模型 让 它 
调整 就 好 。 


1. 关于 卷 积 核 的 第 一 种 错误 认识 一 一 权 值 固定 

对 于 错误 1， 最 直接 的 解释 是 ， 如 果 卷 积 核 固定 ， 为 什么 Keras 不 提供 让 我 们 指定 卷 积 核 的 
接口 ? 可 以 查看 一 个 卷 积 神经 网 络 的 实战 案例 ， 即 著名 的 AlexNet。 首 先 这 里 有 5 层 卷 积 核 ， 每 
层 卷 积 核 的 个 数 (96256 384 384 256) 又 各 不 相同 ， 如 果 这 么 多 卷 积 核 的 参数 都 需要 数据 分 析 
人 员 钦 定 〈 如 本 书 3.3 节 中 用 的 Sobel 算 子 ) ， 然 后 模型 表现 又 不 好 ， 这 些 固定 下 来 的 卷 积 核 里 
面 的 参数 应 该 如 何 改进 呢 ? 所 以 深度 神经 网 络 的 训练 过 程 中 ， 这 些 值 都 是 变化 的 ， 让 模型 自己 
去 找 最 优 解 〈 如 图 5-4 中 的 右 图 ) 。 由 于 是 卷 积 核 变 化 的 ， 高 级 封装 的 Keras 就 不 再 提供 卷 积 核 
的 直接 输入 接口 了 ， 只 有 TensorFlow 的 底层 nn.conv2d 函数 才 提供 。 
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AlexNet 结构 第 一 层 卷 积 层 的 96 个 、 大 小 为 11 x 11 的 卷 积 核 结果 矩阵 
params AlexNet FLOPs 
‘uv 


1cM lr 1ow 
sw MEES 37 
442x | E o 
1.3M | EOSS] (112M 
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(图 片 来 源 ，AlexNet 2012 年 文章 ImageNet Classification with Deep Convolutional Neural Networks) 
图 5-4 AlexNet 结构 


2. 关于 卷 积 核 的 第 二 种 错误 认识 一 一 卷 积 只 做 扫描 

对 于 错误 2， 同 样 以 AlexNet 的 工程 实践 为 例 来 谈 谈 后 果 。 这 里 如 果 AlexNet 输入 的 RGB 
图 像 三 层 ， 第 一 次 卷 积 乘 以 96 输出 288 图 层 ， 第 二 次 卷 积 288 再 乘 以 236， 然 后 一 路 乘 下 去 ， 
整个 模型 输出 的 图 层 数 量 很 快 就 会 “爆炸 ”。 实际 上 在 扫描 出 例如 第 一 层 的 3X96=288 个 输出 后 ， 
会 有 一 个 288 到 96 的 全 连接 ， 即 深度 神经 网 络 中 的 卷 积 层 ， 实 际 上 是 一 个 计算 卷 积 后 再 对 卷 积 
结果 进行 全 连接 ， 卷 积 层 的 这 种 特点 称 为 稀疏 权重 。 

稀疏 权重 的 意思 是 ， 对 同样 大 小 的 输入 输出 ， 如 果 直 接 全 连接 ， 连 接 次 数 就 是 输入 矩阵 中 
的 点 数 乘 以 输出 矩阵 中 的 点 数 。 以 AlexNet 第 一 层 为 例 , 这 个 值 是 (224X224X3)X(55X55X96)， 
连接 数 是 巨大 的 , 但 是 引入 卷 积 核 作为 媒介 以 后 ,等 于 是 距离 较 近 的 点 通过 卷 积 局 部 连接 一 次 ， 
然后 较 远 的 点 通过 卷 积 之 间 的 全 连接 实现 , 这 样 两 个 距离 较 远 的 点 之 间 的 连接 就 被 相对 弱化 了 ， 
从 而 减少 了 运算 量 。 卷 积 核 的 这 种 特点 ， 可 以 被 概括 为 权 值 共享 ， 即 卷 积 核 作为 媒介 不 断 地 在 
局 部 连接 各 个 像素 点 ， 本 身 却 只 用 一 套 参数 ， 相 当 于 是 各 个 像素 点 在 连接 时 共享 了 一 套 权 值 ， 
而 不 是 简单 的 全 连接 ， 如 图 5-5 所 示 。 


layer m-l hidden layer m 


Figure 1: example of a convolutional layer 





^ 
网 








片 来 源 : http://siliconmentor.blogspot.sg/2015/04/an-introduction-to-cnn.html) 
图 5-5 卷 积 层 对 扫描 结果 进行 了 全 连接 组 合 
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理解 了 卷 积 层 并 非 只 是 扫描 图 像 、 还 进行 了 图 层 整 合 这 一 点 以 后 ， 看 起 来 比较 诡异 的 1X1 
卷 积 层 是 做 什么 的 也 就 有 了 答案 一 这 种 情况 就 是 只 整合 图 层 ,不 整合 局 部 信息 。 通 常情 况 下 ， 
如 果 1X1 卷 积 层 输入 图 层 高 于 输出 图 层 ， 这 种 情况 就 相当 于 对 卷 积 层 输出 结果 做 了 一 次 压缩 。 

讲 完 原 理 ， 再 用 代码 加 以 巩固 。 我 们 将 之 前 单 颜色 通道 的 输入 图 片 ， 增 加 一 个 一 模 一 样 的 
颜色 通道 ， 这 样 矩 阵 的 输入 就 成 了 [1, 5. 5, 2]。 由 于 图 片 输入 通道 增加 ， 卷 积 核 的 输入 通道 也 要 
进行 相应 的 增加 ， 除 了 之 前 的 3X3 和 矩阵 之 外 ， 我 们 再 引入 一 个 卷 积 核 : 





扫描 结果 : 
# 考虑 第 二 种 卷 积 核 的 输出 y2_cov 


X kernel 2 = np.array([ 
[0,1,0], 
[1,0,1], 
[0,1,0] 

], dtype-np.float32) 


tf x kernel 2 = tf.constant(np.reshape(x kernel 2, newshape-[3,3,1,1])) 
y2 = tf.nn.conv2d(tf x input, tf x kernel 2, strides-[1,1,1,1], 
padding-"VALID") 
with tf.Session() as sess: 
sess.run(tf.global variables initializer()) 


[yl cov,y2 cov] = sess.run([yl, y21) 


print (u" 第 一 种 卷 积 核 扫描 结果 : n) 
print(yl cov[0,:,:,0]) 
print (u" 第 二 种 卷 积 核 扫描 结果 : n) 
print(y2 cov[0,:,:,0]) 


运算 结果 : 
# out: 
第 一 种 卷 积 核 扫 描 结果 : 
[[ 4. 3. 4.] 
[ 2. 4. 3-] 
| 
第 二 种 卷 积 核 扫 描 结果 : 
[[ 2 4. 2.] 
[ 2. 3. 4.] 
[ 2 3. 2.]] 
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此 时 考虑 为 输入 层 添 加 一 个 图 层 ， 这 样 图 层 数 从 之 前 的 一 个 增加 到 两 个 ， 图 层 的 内 容 跟 之 
前 一 样 。 接 下 来 组 合 之 前 的 两 个 卷 积 核 ， 使 组 合 后 的 卷 积 核 可 以 接受 两 个 图 层 输 入 ， 但 只 返回 
一 层 输 出 。 发 现 其 结果 是 两 个 图 层 分 别 扫描 结果 的 简单 相 加 : 


# 输入 层 加 一 个 图 层 ， 里 面 内容 同 之 前 ， 这 样 输入 维度 增加 到 2 
x input2 = np.zeros([1,5,5,2]) 
x input2[0,:,:,0] = x input 


x input2[0,:,:,1] = x input 


# 输入 维度 增加 到 2， 卷 积 核 输入 维度 同样 做 相应 的 增加 ， 但 这 里 输出 仍然 是 一 个 维度 


X kernel 3 = np.zeros([3,3,2,1]) 


X kernel 3[:,:,0,0] = x kernel 1 
Xx kernel 3[:,:,1,0] = x kernel 2 
tf x input? = tf.constant(x input2.astype (np.float32) ) 


tf x kernel 3 = tf.constant(x kernel 3.astype (np.ífloat32) ) 


y3 - tf.nn.conv2d(tf x input2, tf x kernel 3, strides-[1,1,1,1], 
padding-"VALID") 
with tf.Session() as sess: 
sess.run(tf.global variables initializer()) 


[y3 cov] = sess.run([y31) 


# 发 现 这 里 卷 积 层 输出 内 容 是 单独 两 个 卷 积 核 扫 描 结 果 的 直接 相 加 
print (u" 第 一 、 第 二 种 卷 积 核 扫描 结果 简单 相 加 : n) 
print((yl cov*y2 cov) [0,:,:,0]) 


print (u" 第 一 、 第 二 种 卷 积 核 组 合 后 扫描 两 层 相 同 输入 图 层 结果 : ") 
print(y3 cov[0,:,:,0]) 


运算 结果 : 
# out: 
第 一 、 第 二 种 卷 积 核 扫 描 结 果 简 单 相 加 : 
DL 6-. 7. 6] 
E4. "CT. 74. 
[ 4. 6. 56.11 
第 一 、 第 二 种 卷 积 核 组 合 后 扫描 两 层 相同 输入 图 层 结果 : 
[E 6- 7. 6.3 
LEGI. wu 734 
[4. 6. 6.]] 


我 们 发 现 输入 维度 增加 后 ， 其 实 就 是 对 两 层 的 结果 做 了 简单 相 加 。 我 们 进而 将 卷 积 层 的 输 
出 也 增加 到 两 个 维度 , 即 卷 积 核 的 输出 维度 为 2, 然后 分 别 控制 卷 积 核 的 输入 使 用 相同 卷 积 图 层 、 
卷 积 核 的 输出 层 使 用 相同 的 卷 积 图 层 : 


X kernel 4 = np.zeros([3,3,2,2]) 


x kernel 4[:,:,0,0] = x kernel 1 
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X kernel 4[:,:,1,0] = x kernel 1 
X kernel 4[:,:,0,1] = x kernel 2 


X kernel 4[:,:,1,1] = x kernel 2 


X kernel 5 = np.zeros([3,3,2,2]) 
X kernel 5[:,:,0,0] = x kernel 1 


x kernel 5[:,:,0,1] = x kernel 1 
Xx kernel 5[:,:,1,0] = x kernel 2 
x kernel 5[:,:,1,1] = x kernel 2 


tf x kernel 4 
tf x kernel 5 = tf.constant(x kernel 5.astype (np.íloat32)) 


tf.constant(x kernel 4.astype (np.float32)) 


y4 - tf.nn.conv2d(tf x input2, tf x kernel 4, strides-[1,1,1,1], 
padding-"VALID") 
y5 - tf.nn.conv2d(tf x input2, tf x kernel 5, strides-[1,1,1,1], 
padding-"VALID") 
with tf.Session() as sess: 
sess.run(tf.global variables initializer()) 


[y4 cov, y5 cov] = sess.run([y4, y5]) 


print (u" 输出 层 用 相同 卷 积 核 的 结果 ") 
print(y4 cov[0,:,:,0]) 
print(y4 cov[0,:,:,1]) 


print (u" 输入 层 用 相同 卷 积 核 的 结果 ") 
print(y5 cov[0,:,:,0]) 
print(y5 cov[0,:,:,1]) 





运算 结果 : 

# out: 

输出 层 用 相同 卷 积 核 的 结果 : 
8. 6. 8.] 
4. 8. 0.] 
4. 06. 389.1 
4. 8. 4.] 
4. 06. 8B.) 
4. 6. 4.] 

输入 层 用 相同 卷 积 核 的 结果 : 
6: 74. 6:1 
4. 7 -] 
4. 6 
6. 7 
4- 了 
4. 6 
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如 果 卷 积 核 的 输出 层 卷 积 通道 相同 、 使 用 不 同 输入 层 的 话 ， 卷 积 层 的 两 个 输出 将 分 别 是 两 
个 卷 积 层 扫描 结果 的 两 倍 。 如 果 卷 积 核 的 输入 层 卷 积 通道 相同 、 使 用 不 同 输出 层 的 话 ， 则 卷 积 
层 的 两 个 输出 就 是 两 个 输入 通道 扫描 结果 的 直接 相 加 之 和 。 


3. 关于 卷 积 核 的 第 三 种 错误 认识 一 一 随机 初始 完全 随机 

对 于 问题 3， 这 里 涉及 一 些 深度 模型 特有 的 问题 。 在 逻辑 回归 中 ， 初 始 化 参数 ， 我 们 可 以 
猜 一 个 ， 比 如 直接 用 np.random.random(n)， 但 是 如 果 模 型 很 深 、 有 连续 的 加 法 和 乘法 操作 ， 此 
时 随机 引入 的 初始 分 布 所 带 的 方差 会 由 于 连 乘 操作 逐 级 放大 或 者 缩小 ， 继 而 在 计算 反 向 梯度 时 
干扰 计算 ， 因 此 需要 一 个 合理 的 初始 化 方法 ， 尽 可 能 使 随机 引入 的 方差 保持 稳定 。 这 里 具体 的 
初始 化 方法 ， 大 家 可 以 阅读 Xavier 初始 化 的 论文 。 


























5.2.2 Cropping2D 

这 里 Cropping2D 就 比较 好 理解 了 ， 就 是 特地 选取 输入 图 像 的 某 一 个 固定 的 小 部 分 。 比 如 车 
载 摄 像 头 检测 路 面 的 马路 线 时 ， 摄 像 关上 半 部 分 拍 到 的 天 空 就 可 以 被 Cropping2D 函数 直接 切 掉 
忽略 不 计 ， 如 图 5-6 所 示 。 











E MET NOU a] E 





Original image taken from the simulator 





Cropped image after passing through a Cropping2D layer 


(HARF: Udacity 自动 驾驶 课程 https://www.udacity.com/drive) 
5-6 使 用 Cropping 层 截取 需要 的 区 域 进 行进 一 步 分 析 


5.2.3 ZeroPadding2D 


2.2.1 节 提 到 输入 参数 时 ， 提 到 padding 参数 如 果 是 same， 扫 描 图 像 边缘 时 会 补 上 0， 确保 
输出 数量 等 于 input / strides。 这 里 ZeroPadding2D 的 作用 就 是 在 图 像 外 层 边 缘 补 上 几 层 0。 如 图 5-7 
所 示 ， 就 是 对 原本 32X32X3 的 图 片 进行 ZeroPadding2D(padding=(2, 2)) 操作 后 的 结果 。 
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36 Networks-Part-2/) 


图 5-7 Padding 层 


53 池 化 层 





5.3.1 MaxPooling2D 

通过 与 一 个 相同 的 、 大 小 为 11X11 的 卷 积 核 做 卷 积 操作 ， 每 次 移动 步 长 为 1， 则 相 邻 的 结 
果 会 非常 接近 ， 正 是 由 于 结果 接近 ， 有 很 多 信息 是 元 余 的 。 

因此 , 最 大 池 化 (MaxPooling) 就 是 一 种 减少 模型 元 余 程度 的 方法 。 以 2X2 MaxPooling 为 例 。 
图 中 如 果 是 一 个 4X4 的 输入 矩阵 ， 则 这 个 4X4 的 矩阵 会 被 分 割 成 由 两 行 、 两 列 组 成 的 2X2 子 矩 
阵 , 然后 每 个 2X2 子 矩阵 取 一 个 最 大 值 作为 代表 , 由 此 得 到 一 个 两 行 、 两 列 的 结果 , 如 图 5-8 所 示 。 


Single depth slice 
max pool with 2x2 filters 
and stride 2 6 
T 3 


(图 片 来 源 :斯坦福 CS231 RE Chttp://cs231n.github.io/convolutional-networks/) ) 
图 5-8 最 大 池 化 层 














5.3.2 AveragePooling2D 


平均 池 化 《〈AveragePooling) 与 最 大 池 化 类 似 ， 不 同 的 是 一 个 取 最 大 值 、 一 个 取 平均 值 。 如 
果 将 图 5-8 中 的 MaxPooling2D 换 成 AveragePooling2D， 结 果 如 下 : 
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在 第 3 章 讲解 二 维 码 压缩 时 ， 用 到 的 就 是 这 种 方法 。 


5.3.3 GlobalAveragePooling2D 


全 局 平均 池 化 〈GlobalAveragePooling，GAP) 指 的 是 之 前 举例 平均 池 化 提 到 的 2X2 池 化 ， 
是 对 子 矩阵 分 别 平均 ， 变 成 了 对 整 输入 矩阵 求 平均 值 。 

这 个 理念 其 实 和 池 化 层 关系 并 不 十 分 紧密 ， 因 为 它 扔 掉 的 信息 有 点 过 多 了 ， 通 常 只 会 出 现 
在 卷 积 神经 网 络 的 最 后 一 层 ， 是 作为 早期 深度 神经 网 络 展开 展 (Flatten) + 全 连接 层 (Dense) 
结构 的 蔡 代 品 ， 如 图 5-9 所 示 。 


Fully Connected Layers Global Average Pooling 


feature maps _ 一 


一 
一 人 || fully connected 8 9 
al = 
averaging 
concatenation 


图 5-9 全 局 平均 池 化 (图 片 来 源 : Network in Network) 






output nodes feature maps output nodes 






前 面 提 到 过 展开 层 通 常 位 于 连接 深度 神经 网 络 的 卷 积 层 部 分 以 及 全 连接 层 部 分 ， 但 是 这 个 
连接 有 一 个 大 问题 ， 就 是 如 果 是 一 个 1kX1k 的 全 连接 层 ， 一 下 子 就 多 出 来 百 万 参数 ， 而 这 些 参 
数 实 际 用 处 相 比 卷 积 层 并 不 高 。 造 成 的 结果 就 是 ， 早 期 的 深度 神经 网 络 占据 内 存 的 大 小 反而 要 
高 于 后 期 表现 更 好 的 神经 网 络 ， 如 图 5-10 所 示 。 





Inception-v4 
804 
Inception-v3 Q e RN 
zs JResNet-50 VGG-16 VGG-19 
1 ResNet-101 
ResNet-34 
7o] d ResNet-18 
z 
8 o9 GoogLeNet 
a ENet 
& 9651 
n @ sN-NIN 
上 60 5M 35M 65M 95M 125M 155M 
BN-AlexNet 
55 AlexNet 
50 
0 5 10 15 20 25 30 35 40 





Operations [G-Ops] 


图 5-10 常见 模型 占用 内 存 大 小 以 及 Top1 分 类 准确 率 (图片 来 源 : Training ENet on ImageNet? 
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更 重要 的 是 ， 全 连接 层 由 于 参数 偏 多 ， 更 容易 造成 过 拟 合 一 一 前 文 提 到 的 失 活 层 就 是 为 了 
避免 过 拟 合 的 一 种 策略 ， 进 而 由 于 过 拟 合 妨 碍 整个 网 络 的 泛 化 能 力 。 于 是 就 有 了 用 更 多 的 卷 积 
层 提取 特征 ， 然 后 继续 展开 这 些 kX k 大 小 卷 积 层 ， 直 接 把 这 些 上 Xk 大 小 卷 积 层 变 成 一 个 值 ， 
作为 特征 连接 分 类 标签 。 


5.4 正则 化 层 与 过 拟 合 


除了 之 前 提 到 的 失 活 策略 、 用 全 局 平均 池 化 层 取代 全 连接 层 的 策略 ， 以 及 第 2 章 提 到 的 参 
数 绝对 值 之 和 或 平方 和 写 进 损失 函数 的 11 12 正则 化 之 外 ， 还 有 一 种 方法 可 以 降低 网 络 的 过 拟 合 ， 
就 是 在 深度 神经 网 络 中 加 入 批 正则 化 ， 这 里 着 重 介绍 批 正则 化 (Batch Normalization) 。 

当然 ， 防 止 过 拟 合 的 方法 还 有 很 多 ， 包 括 后 面 案例 部 分 中 ， 第 9、11 章 用 到 的 数据 增强 
以 及 基于 多 任务 学 习 的 迁移 学 习 ， 第 9 章 用 得 多 个 深度 神经 网 络 结果 模型 平均 ， 第 10 章 训练 
RNN 时 ， 在 调试 阶段 会 用 到 的 提前 中 止 训练 〈 见 bttps://ypwhs.github.io/capteha/) ， 以 及 本 书 未 
涉及 的 更 高 级 的 策略 ， 也 包括 对 抗 训练 、 稀 玻 编码 、 流 形 正切 等 。 这 些 方法 在 这 里 不 过 多 讨论 ， 
有 兴趣 继续 学 习 的 读者 ， 可 以 仔细 阅读 Deep learning 一 书 的 第 7 章 。 





Batch Normalization 


批 正则 化 (Batch Normalization) 提出 的 本 意 是 为 了 加 速 神经 网 络 训练 的 收敛 速度 。 比 如 进 
行 最 优 值 搜索 时 ， 不 清楚 最 优 值 位 于 哪里 ， 可 能 是 上 千 、 上 万 ， 也 可 能 是 一 个 负数 。 这 种 不 确 
定性 会 造成 搜索 时 间 的 浪费 ， 但 实际 应 用 在 神经 网 络 中 时 ， 发 现 这 种 方法 实际 上 可 以 有 效 地 降 
低 过 拟 合 。 

批 正 则 化 层 可 以 将 需要 进行 最 优 值 搜索 数据 转换 成 标准 正 态 分 布 ， 这 样 optimizer 就 可 以 加 
速 优化 。 算 法 如 下 : 

输入 : 单个 批 次 的 输入 数据 : B 

期 望 输出 : B, Y 


Yi = BN, pœ) 
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根据 该 算法 ， 在 批 正则 化 层 的 训练 过 程 中 ， 将 利用 基于 各 个 批 次 估计 的 数据 的 平均 值 、 方 
差 代 蔡 实 际 整 体 的 平均 值 、 方 差 ， 并 根据 估计 出 的 平均 值 与 方差 将 数据 转换 为 标准 正 态 分 布 ， 继 
而 通过 在 训练 过 程 中 不 断 更 新 y 与 B 的 值 ， 将 标准 正 态 分 布 的 数据 进行 还 原 ， 继 而 作为 输出 。 

值得 关注 的 是 ，dropout 与 batch normalization 两 种 正则 化 手段 ， 在 TensorFlow 的 训练 与 
预测 过 程 中 ， 均 采用 了 不 一 样 的 策略 。 其 中 ，dropont 在 训练 时 将 会 随机 失 活 一 定 百 分 比 的 神经 
元 ， 而 预测 时 为 了 避免 随机 选取 带 来 的 不 确定 性 ， 将 改 为 所 有 神经 元 数值 减少 该 失 活 百分比 ; 
TE batch normalization 中 ， 训 练 阶段 的 数据 平均 值 、 方 差 是 将 当前 批 次 值 的 平均 值 、 方 差 以 及 估 
计 的 总 体 平 均值 、 方 差 按照 一 定 比例 混合 得 到 的 ， 而 预测 阶段 的 平均 值 、 方 差 则 来 自 当 前 批 次 
计算 所 得 到 的 结果 。 





5.5 反 卷 积 层 


最 后 再 谈 一 谈 和 图 像 分 割 相关 的 反 卷 积 层 。 

之 前 介绍 池 化 层 时， 在 卷 积 神经 网 络 中 ， 池 化 可 以 通过 对 一 片区 域 计算 平 均值 、 最 大 值 ， 
降低 图 片 的 大 小 ， 进 而 忽略 无 关 信息 。 换 言 之 ， 卷 积 神经 网 络 中 的 池 化 操作 就 是 对 输入 图 片 打 
马赛 克 。 

马赛 克 是 否 有 用 ? 我 们 知道 老 程 序 员 可 以 做 到 “图 中 有 码 ， 心 中 无 码 ”， 就 是 说 ， 图 片 即 
便 是 打 了 马赛 克 、 忽略 了 细节 , 仍然 可 以 大 概 猜 出 图 片 的 内 容 。 这 个 过 程 就 有 点 反 卷 积 的 意思 了 ， 
如 图 5-11 所 示 。 








Convolution Deconvolution 


(图 片 来 源 : Learning Deconvolution Network for Semantic Segmentation 
5-11 卷 积 与 反 卷 积 过 程 


利用 反 卷 积 层 ， 可 以 基于 卷 积 层 + 全 连接 层 结构 构建 新 的 用 于 图 像 分 割 的 神经 网 络 结构 : 
e REA RIÉBEE, wB 5-12 所 示 。 


“tabby cat" 
"i EG: 
3 ge RSS IPS 
9 


图 5-12 基于 卷 积 + 全 连接 层 进行 图 像 分 类 
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e ”全 卷 积 层 结构 ， 使 用 卷 积 十 反 卷 积 层 〈Upsampling 过 程 ) ， 如 图 5-13 所 示 。 
convolutionalization 


tabby cat heatmap 














oo 


(图 片 来 源 ，Fully Convolutional Networks for Semantic Segmentation) 
5-13 基于 卷 积 + 反 卷 积 实现 图 像 分 类 + 定位 


UpSampling2D 


图 5-13 在 最 后 阶段 使 用 了 上 采样 CUpsampling) 模块 ， 这 个 同样 在 TensorFlow 的 Keras 模 
块 可 以 找到 。 用 法 和 MaxPooling2D 基本 相反 ， 比 如 : 


UpSampling2D(size-(2, 2)) 


相当 于 将 输入 图 片 的 长 宽 各 拉 伸 一 倍 ， 整 个 图 片 被 放大 了 。 
明白 了 大 致 原理 ， 对 这 种 复杂 的 模块 ， 仍 然 是 用 底层 TensorFlow 代码 巩固 学 习 ， 用 一 个 
3X3 的 、 全 是 1 的 卷 积 核 ， 对 输入 层 执行 反 卷 积 操作 : 


X kernel 3 = np.array([ 
[1,1,1], 
[1,1,1], 
[1,1,1] 
], dtype-np.float32) 
tf x kernel 3 = tf.constant(np.reshape(x kernel 3, newshape-[3,3,1,1])) 


yl trans - tf.nn.conv2d transpose(yl, tf x kernel 3, output 
shape-[1,5,5,1], strides-[1,2,2,1], padding-"SAME") 


with tf.Session() as sess: 
sess.run(tf.global variables initializer()) 


[yl cov tran] = sess.run([yl trans]) 


print (u" 反 卷 积 输入 ") 
print(yl cov[0,:,:,0]) 
print (u" 反 卷 积 输出 ") 


print(yl cov tran[0,:,:,0]) 


106 


第 5 章 排列 组 合 





深度 神经 网 络 框架 的 模型 元 件 


运算 结果 : 

# out: 

反 卷 积 输入 : 

I[ 4. 3. 4.] 
Sue. We 32 
2i. 3. 3g 

反 卷 积 输出 : 

[ 4. Ts 3 Fs 4.] 
6: X35 Fe d45 -F 
2 6 4 T o 9 
4. 11.: 7 14. 7-1] 
2 Ss 3 LE 2:1] 





粗 看 起 来 ， 结 果 难 以 解释 一 一 5X5 和 矩阵， 最 中 间 的 点 以 及 最 外 层 边 缘 、 中 间 的 8 个 点 ， 与 
输入 的 卷 积 层 一 模 一 样 ， 但 其 他 点 是 怎么 来 的 ? 其 实 这 里 反 卷 积 首先 进行 了 一 个 补 0 的 操作 ， 
将 输入 变 成 : 





再 用 3X3、 全 是 1 的 卷 积 核 扫 描 ， 就 得 到 了 反 卷 积 的 结果 : 


Xx input tran zero = np.array([ 
[4,0,3,0,4], 
[0,0,0,0,0], 
[2,0,4,0,3], 
[0,0,0,0,0], 
[2,0,3,0,4] 
], dtype-np.float32) 
tf input tran zero = tf.constant(np.reshape(x input tran zero, 
newshape-[1,5,5,1])) 
yl trans zero = tf.nn.conv2d(tf input tran zero, tf x kernel 3, 
strides-[1,1,1,1], padding-"SAME") 


with tf.Session() as sess: 
sess.run(tf.global variables initializer()) 


[yl cov tran2] = sess.run([yl trans zero]) 


print (u" 反 卷 积 输出 ") 
print(yl cov tran2[0,:,:,0]) 
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运算 结果 : 
# out: 
反 卷 积 输出 
EE do X 3» OA AI 
Ee 13; y rS n 7.] 
p 和 6 4. 7 3.] 
[ 4. 11 Ta dA. Und 
E X3 5 3 7 4.]1 


这 样 就 十 分 清楚 了 ， 反 卷 积 的 实质 ， 其 实 就 是 将 原 矩 阵 扩大 后 中 间 补 0， 然 后 对 扩大 后 矩 
阵 做 卷 积 的 过 程 。 
通过 反 卷 积 将 矩阵 大 小 扩大 到 5， 并 且 将 其 继续 扩大 到 9: 


yl trans = tf.nn.conv2d transpose(yl, tf x kernel 3，output 
shape-[1,9,9,1], strides-[1,4,4,1], padding-"SAME") 
with tf.Session() as sess: 
sess.run(tf.global variables initializer()) 
[yl cov tran] = sess.run([yl trans]) 
print (u" 反 卷 积 输入 ") 
print(yl cov[0,:,:,0]) 
print (u" 反 卷 积 输出 ") 


print(yl cov tran[0,:,:,0]) 








运算 结果 : 
# out: 
反 卷 积 输入 
[[ 4 3. 4 
2 4s d. 
2e 3 4.]] 
反 卷 积 输出 
L036 Jo 3 O02 ds 4 
4d. 4. O0. 3. 3. 3. Q0. 4. 4. 
0. . UO. 0... 0. O0. 0. O0. 0. 90. 
2. 2. Q0. 4. 4. 4. O0. 3. 3. 
2. Qu Os 04. A. 4. QOL. 3. 3. 
2e 0&5. A Xs VAL Ou o 36. 3X 
0. 0. O0. O0. O0. 0. O0. O. 0. 
2. 2. 0. 3. 3. 3. Q0. 4. 4. 
2. 2. 0. 3. 3. 3. 0. 4. 4.]] 
由 此 可 见 ， 这 个 结果 同样 是 原 和 矩阵 各 元 素 等 比例 移动 、 其 他 位 置 补 0， 得 到 一 个 大 矩阵 ， 


然后 对 大 矩阵 做 卷 积 得 到 的 。 
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最 后 ， 反 卷 积 层 同样 涉及 图 层 之 间 输 入 输出 维度 的 组 合 问题 ， 这 部 分 内 容 与 卷 积 层 相同 ， 
这 里 不 再 次 述 。 


5.6 循环 层 


循环 层 (Recurrent Neural Networks, RNN) 常 被 用 于 处 理 有 上 下 文 或 时 间 关 系 的 内 容 ， 如 
语义 理解 、 语 音 识别 等 ， 本 书 第 10 章 的 案例 将 使 用 循环 层 进行 验证 码 识 别 。 我 们 以 人 类 阅读 行 
为 进行 类 比 ， 在 阅读 文章 时 ， 虽 然 看 的 是 当前 文章 中 的 这 个 词语 ， 但 实际 上 脑子 里 会 记录 之 前 
看 见 的 内 容 ， 具 体 可 能 是 刚 看 过 的 两 句 话 记得 比较 清楚 ， 两 分 钟 前 看 的 只 记得 大 致意 思 ， 再 早 
看 见 的 很 多 就 忘 了 ， 而 作者 反复 强调 的 内 容 或 者 比较 重要 的 部 分 ， 可 能 过 两 天 之 后 还 能 清楚 记 
得 。 所 以 实际 上 人 是 基本 做 不 到 “过 目 不 忘 ”的 ， 但 这 并 不 影响 人 们 进行 阅读 ， 学 习 新 的 内 容 ， 
因为 忘掉 的 部 分 并 不 重要 ， 要 点 已 经 被 记 下 来 了 。 

循环 神经 网 络 就 是 用 来 处 理 数 据 中 存在 的 上 下 文 关系 的 。Keras 中 常用 的 模块 包括 
SimpleRNN. LSTM 以 及 GRU 三 种 。 





5.6.1 SimpleRNN 


SimpleRNN 是 RNN 中 的 全 连接 网 络 。 我 们 在 5.1 节 说 过 全 连接 层 就 是 进行 简单 的 矩阵 乘法 ， 
所 以 实际 上 SimpleRNN 算法 不 存在 “遗忘 ”功能 ， 对 历史 数据 必须 “过 目 不 忘 ”， 每 增加 一 个 
当前 的 状态 ， 就 需要 再 对 前 面 一 段 时 间 点 中 各 个 历史 状态 建立 连接 。 

这 种 方法 的 问题 是 ， 本 书 5.2.1 节 介绍 卷 积 层 的 第 三 种 错误 认识 时 ， 提 到 合理 的 参数 初始 化 
很 重要 ， 因 为 深度 神经 网 络 中 会 有 反复 的 连续 乘法 操作 ， 此 时 一 旦 初始 化 做 得 不 够 好 ， 随 机 引 
入 的 初始 分 布 所 带 的 方差 会 由 于 连 乘 操作 逐 级 放大 或 者 缩小 ， 造 成 梯度 爆炸 或 者 梯度 消失 ， 特 
别 是 RNN 处 理 历史 数据 的 话 ， 会 根据 不 同时 间 点 进行 几 十 次 、 上 百 次 连 乘 操作 ， 远 高 于 通常 神 
经 网 络 中 十 几 次 或 者 几 十 次 的 情况 。 在 这 种 情况 下 ， 梯 度 爆 炸 、 消 失 的 问题 会 更 加 严重 ， 因 此 
通常 并 不 使 用 SimpleRNN， 在 使 用 循环 神经 网 络 时 ， 通 常用 到 的 是 下 面 介绍 的 LSTM 和 GRU 
两 种 。 


5.6.2 LSTM 


LSTM 为 了 解决 SimpleRNN 的 问题 ， 提 出 了 一 种 记忆 机 制 ， 通 过 三 个 门 控 单元 来 对 历史 信 
息 单元 的 内 容 进 行 交 互 。LSTM 的 组 织 结构 如 图 5-14 所 示 ， 每 一 个 时 间 点 的 输入 数据 ， 分 别 对 
应 一 个 LSTM 单元 。 下 间 点 对 应 LSTM 单元 的 参数 ， 即 记忆 单元 。 黄 色 框 tanh o 分 别 是 tanh 
sigmoid 激活 层 (参见 5.1.2 节 ), 红色 圆 框 中 x 代 表 两 个 数 做 乘法 运算 、+ 代表 两 个 数 做 加 法 运算 。 
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(图 片 来 源 : Colah 博客 Chttpz//colah.github.io/posts/2015-08-Understanding-LSTMs/) ) 
图 5-14 LSTM 所 包含 的 各 个 单元 


注意 ， 由 于 sigmoid 激活 层 在 绝 大 多 数 情 况 下 返回 的 是 0 或 者 1， 除 非 输入 数字 绝对 值 大 于 
5， 因 此 可 以 认为 这 几 个 激活 函数 控制 的 门 非 开 即 闭 : 


。 输入 门 ( 从 左 到 右 第 一 个 框 》: 输入 门 控制 当前 xt 的 信息 融入 记忆 单元 ct， 可 以 理解 当 
前 这 个 词 的 内 容 ， 对 整 句 话 是 否 重要 。 

e 遗忘 门 ( 从 左 到 右 第 二 个 框 ): 遗忘 门 控 制 上 一 个 时 间 点 的 记忆 单元 ct-l 的 内 容 融 入 当前 
记忆 单元 ct， 即 当前 内 容 是 否 同上 文 有 关 。 如 果 相 关 ， 则 梯度 反 向 传播 时 就 可 以 直接 从 当 
前 层 的 ct 传播 至 上 一 层 的 ct-1, 从 而 避免 了 很 多 连续 的 乘法 运算 ,继而 有 效 缓解 了 梯度 消失 。 

。 输出 门 ( 从 左 到 右 第 三 个 框 ): 输出 门 控制 当前 ct 的 信息 融入 隐 层 单元 输出 ht， 即 这 里 
判断 了 ctl 中 的 哪些 内 容 对 输出 有 用 。 


可 以 参考 https://zhuanlan.zhihu.com/p/28297161。 


5.6.3 GRU 


GRU 是 LSTM 的 一 种 简化 版 本 ， 具 体 而 言 有 以 下 化 简 : 


e 合并 了 LSTM 的 输入 门 和 遗忘 门 ， 成 为 更 新 门 。 
e 合并 了 记忆 单元 ct 和 隐 层 单元 ht， 仍 然 是 隐 层 单元 。 


继而 有 : 


e 重 置 门 : 用 于 控制 前 一 时 刻 隐 层 单元 ht 对 当前 词 xt 的 影响 , 即 总 体 情况 对 当前 状态 的 影响 。 
e 更 新 门 用 于 决定 是 否 忽略 当前 词 xt， 即 当前 状态 是 否 影响 总 体 情 况 。 


可 以 参考 https://zhuanlan.zhihu.com/p/28297161 o 
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讲解 完 模型 的 基本 模块 后 ， 再 谈 谈 这 些 模块 的 上 游 和 下 游 。 我 们 可 以 利用 这 些 模块 来 组 合 
更 复杂 的 模型 、 挖 据 更 复杂 的 特征 。 事 实 上 ， 这 几 年 深度 学 习 领 域 的 新 进展 就 是 以 这 个 想法 为 
基础 产生 的 。 我 们 可 以 使 用 更 复杂 的 深度 学 习 网 络 ， 在 图 片 中 挖 出 数 以 百 万 计 的 特征 。 

这 时 问题 也 就 来 了 。 机 器 学 习 过 程 中 是 需要 一 个 输入 文件 的 。 这 个 输入 文件 的 行 、 列 分 别 
指 代 样 本 名 称 以 及 特征 名 称 。 如 果 是 进行 百 万 张 图 片 的 分 类 ,每 个 图 片 都 有 数 以 百 万 计 的 特征 ， 
我 们 将 拿 到 一 个 百 万 样本 X 百 万 特征 的 巨型 矩阵 。 传 统 的 机 器 学 习 方法 拿 到 这 个 矩阵 时 ， 受 限 
于 计算 机 内 存 大 小 的 限制 ， 通 常 是 无 从 下 手 的。 也 就 是 说 ， 传 统 的 机 器 学 习 方 法 ， 除 了 在 多 数 
情况 下 不 会 自动 产生 这 么 多 的 特征 以 外 ， 模 型 的 训练 也 会 是 一 个 大 问题 。 

深度 学 习 算 法 为 了 实现 对 这 个 量 级 数据 的 计算 ， 做 了 以 下 算法 以 及 工程 方面 的 创新 : 

。 将 全 部 所 有 数据 按照 样本 拆 分 成 若干 批 次 ， 每 个 批 次 大 小 通常 在 十 几 个 到 100 多 个 样本 

之 间 (本 章 接 下 来 要 讲 的 内 容 ) 。 
。 将 产生 的 批 次 逐一 参与 训练 , 更 新 参数 (下 一 章 , 深度 神经 网 络 框架 的 模型 训练 的 内 容 ) 。 
© 使 用 GPU 等 并 行 计算 卡 代替 CPU， 加 速 并 行 计算 速度 。 





第 6 章 少量 多 次 一 一 深度 神经 网 络 框 架 的 输入 处 理 

这 就 有 点 “愚公移山 ”的 意思 了 。 我 们 可 以 把 训练 深度 神经 网 络 的 训练 任务 ， 想 象 成 是 搬 
走 一 座 大 山 。 在 成 语 故 事 中 ， 愚 公 的 办 法 是 既然 没有 办 法 直接 把 山 搬 走 ， 那 就 让 子 子孙 孙 每 人 
每 天 搬 几 管 土 走 ， 山 就 会 越 来 越 矮 ， 总 有 一 天 可 以 搬 完 一 一 这 种 任务 分 解 方式 就 如 同 深度 学 习 
算法 的 分 批 训练 方式 。 同时, 随 着 科技 进步 , 可 能 搬 着 搬 着 就 用 翻斗 车 甚至 是 高 科技 来 代替 背 管 ， 
就 相当 于 是 用 GPU 等 并 行 计算 卡 代 蔡 了 CPU. 

我 们 接 下 来 要 讲 的 就 是 如 何 将 深度 学 习 框架 运用 在 图 像 处 理 的 使 用 场景 中 。 实际 工程 环节 ， 
我 们 需要 解决 三 个 问题 : 

。 深度 神经 网 络 框 架 的 图 像 输入 接口 怎么 做 ? (怎么 将 大 山 分 为 小 土 堆 》 

e 深度 神经 网 络 框 架 的 内 部 如 何 设计 ? 

e 深度 神经 网 络 框架 的 参数 如 何 优化 ? (怎么 将 土 堆 搬 走 ) 


这 三 个 问题 分 别 对 应 着 深度 神经 网 络 的 上 游 、 深 度 神经 网 络 本 身 以 及 深度 神经 网 络 的 下 游 
如 何 设计 。 本 章 首先 来 谈 一 谈 上 游 部 分 ， 即 如 何 设计 深度 神经 网 络 框架 的 图 像 接 口 。 





6.1 批量 生成 训练 数据 


在 第 3 章 中 已 经 了 解 到 ， 位 图 在 计算 机 中 通常 以 三 维 张 量 (Tensor) 的 形式 存储 ， 即 [ 图 像 
高 度 ， 图 像 宽度 ，RGB 层 ]。 而 深度 神经 网 络 的 接受 数据 输入 , 则 是 一 个 四 维 的 张 量 ， 分 别 是 [图 
像 编 号 ， 图 像 高 度 , 图 像 宽度 ，RGB 层 ]， 其 中 图 像 编号 指 的 是 ， 深 度 神经 网 络 通常 每 次 会 接收 
多 张 图 片 ， 然 后 同时 进行 计算 ， 这 里 的 编号 指 代 了 某 一 图 片 是 这 一 批 图 片 中 的 第 几 张 。 

当 我 们 的 训练 数据 以 一 张 张 图 片 的 形式 保存 在 硬盘 中 时 ， 如何 实现 一 个 函数 , 每 调用 一 次 ， 
就 会 读 取 指定 张 数 的 图 片 ( 以 n=32 为 例 ) ， 将 其 转化 成 四 维 张 量 ， 返 回 输出 ， 进 而 在 接 下 来 的 
环节 中 交 给 深度 神经 网 络 模型 。 

一 个 函数 被 调用 才能 执行 ， 我 们 借助 Python 的 生成 器 (generator) 来 实现 。 生 成 器 的 特点 ， 
这 里 我 们 借用 廖 雪 峰 博客 中 的 一 段 话 : 


创建 一 个 包 命 100 ZI ZU EHU list, TE AARAA EESTI, MRN K SEI IHE BE 
NPER, WREKE L HTU SS IATER EY. H, 4R list ZEE HI ARER 
PREMER HR, HURTS BRI AEA KILE PT ER TETTRE? REAT BEE 
ZK list, M EACUS HI. Æ Python P, 3h M BAR U I ARIARI AE CAR: 


generatoro 





概括 而 言 ， 就 是 生成 器 可 以 节约 内 存 占 用 一 一 将 成 后 上 万 甚至 更 多 的 图 片 保存 在 硬盘 中 就 
好 ， 模 型 需要 调用 时 再 读 入 内 存 。 我 们 首先 来 说 一 下 如 何 将 一 个 简单 的 函数 改写 为 生成 器 。 
原 函 数 给 定 若干 图 片 的 存储 位 置 ， 全 部 读 入 内 存 : 
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def get image(path, shape-None): 
image = cv2.imread(path) 
image = image[:,:,::-1] 
if shape !- None: 
image = cv2.resize(image, shape) 


return image 


1 img = [] 

for imagepath in l imagepath: 
img = get image (imagepath) 
1 img.append (img) 


改写 成 生成 器 ， 同 样 给 定 若干 图 片 的 存储 位 置 ， 执 行 一 次 ， 只 将 32 张 图 片 读 入 内 存 : 


from sklearn.utils import shuffle 
def image generator(pd input, shape-(64,64), batch size-32): 
num samples - pd input.shape[0] 
while 1: 
# 重 排 数 据 
pd input shuffle = shuffe (pd_input) 
for offset in range(0, num samples, batch size): 
1x-ll 
二 二 
for idx in range(batch size): 
batch samples = pd input shuffle.iloc[offset:offset* batch size] 
Ery: 
path = batch samples.iloc[idx]['Sample'] 
label = batch_samples.iloc [idx] ['Class'] 
image = get_image (path, shape) 
1 x.append (image) 
l_y.append (label) 
except: 


pass 


np x = np.array(l x) 
np y = np.array(l y) 
yield shuffle(np x, np y) 


g = image generator(pd SampClass train) 


1 image,l label = next (g) 


实际 应 用 中 , Keras 也 有 生成 器 , 可 以 直接 使 用 Keras 的 生成 器 代码 。 注 意 实 际 使 用 的 过 程 中 ， 
请 在 data path. 下 建立 两 个 文件 夹 〈 二 分 类 情形 ) ， 分 别 将 图 片 文件 存 入 对 应 分 类 的 文件 夹 : 
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train generator = train datagen.flow from directory( 
'data path', 
target size-(150, 150), 
batch size-32, 
cere mese EE RU, ) 
Keras 有 生成 器 ， 我 们 这 里 还 要 作为 重点 来 说 ， 是 因为 很 多 业务 场景 下 ， 可 以 照搬 别人 高 大 
上 的 神经 网 络 架构 、 直 接 用 Keras 中 各 种 复杂 的 优化 器 来 训练 网 络 ， 反 而 是 不 怎么 高 大 上 的 生 
成 器 需要 数据 科学 家 自己 写 。 在 实际 的 图 片 分 析 中 , 很 多 时 候 手 里 的 图 像 是 需要 进行 预 处 理 的 ， 
甚至 这 些 输入 图 像 并 非常 见 的 图 像 格式 ， 例 如 CT 医学 影像 数据 。Keras 的 函数 虽然 可 以 直接 将 
图 片 以 四 维 张 量 的 形式 输出 ， 但 如 果 输 入 的 不 是 图 片 ， 而 是 CT 数据 这 种 复杂 的 格式 ， 就 需要 
自己 写 一 个 生成 器 。 
最 后 ， 本 章 内 容 介绍 的 Keras 生成 器 的 写法 ， 最 终 只 会 调用 单个 CPU 进行 图 像 预 处 理 ， 这 
样 可 能 会 最 终 造成 CPU 图 像 预 处 理 的 速度 低 于 GPU 的 模型 训练 速度 。 为 了 调用 多 个 CPU 进行 
图 像 预 处 理 ， 一 个 简单 的 办 法 是 ，2.0.8 版 本 以 上 的 keras， 在 model.fit generator 函数 中 ， 可 以 
指定 workers=6、use_multiprocessing=True， 继 而 同时 使 用 6 个 CPU、 调 用 6 个 生成 器 进行 图 像 
预 处 理 ( 见 本 书 10.4.5 节 以 及 对 应 代码 Lecturel0/baiduyun dl competition/round2/test fixedSize*. 
ipynb) 。 在 此 基础 上 , 如 果 要 进一步 加 速 图 像 预 处 理 速度 , 则 需要 对 多 个 图 像 文件 进行 压缩 处 理 、 
存储 为 一 个 二 进 制 文件 (如 TensorFlow 的 tfrecord 文件 ) 来 加 快 读 写 速度 ， 有 兴趣 的 读者 可 以 
进一步 地 深入 研究 ， 这 里 不 再 详细 介绍 。 





6.2 数据 增强 


数据 增强 (Data Augmentation) 可 以 理解 成 对 数据 进行 有 放 回 的 重新 抽样 。 通 过 数据 重 抽样 ， 
可 以 在 数据 量 较 小 的 情况 下 更 好 地 估计 数据 的 分 布 情况 。 

如 果 在 抽样 的 放 回 过 程 中 对 数据 加 入 干扰 因素 ， 则 这 个 过 程 就 是 数据 增强 。 当 然 这 里 的 干 
扰 因素 需要 适度 ， 这 里 适度 的 原则 就 是 ， 对 于 人 类 专家 而 言 ， 使 用 增强 后 的 数据 也 可 以 做 出 正 
确 的 判断 一 一 比如 一 张 汽车 图 片 ， 我 们 局 部 放大 一 下 ， 可 能 还 认识 这 是 汽车 ， 那 么 这 种 增强 的 
方法 就 可 以 ， 如 果 把 这 辆 车 的 图 片 完全 涂 黑 ， 自 己 都 不 认识 了 ， 那 么 这 种 增强 方法 就 不 可 取 。 

常用 的 数据 增强 方法 包括 : 

e 放大 缩小 图 片 

e 旋转 图 片 

e 水平 翻转 图 片 


我 们 可 以 通过 Keras 的 ImageDataGenerator 来 直接 实现 ( 见 图 6-1) : 
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# 装载 数据 


l_imagepath = ['./dataset/vehicles/KITTI extracted/4374.png'] 


l_img = [] 
for imagepath in l_imagepath: 
img = get_image (imagepath) 


l_img.append (img) 


# 设置 并 初始 化 生成 器 
train datagen = ImageDataGenerator( 
rescale-1.0/255, 
shear range-0.2, 
zoom range-0.2, 
horizontal flip-True 
) 
train generator = train datagen.flow(np.array(l img)) 
fig = plt.figure (figsize-(7,7)) 
fig.add _ subplot (3,3,1) 
ax.imshow(l img[0]) 


ax 


ax.set axis off() 
ax.set title("Raw Image") 
for i in range(8): 
imgs = next(train generator) 
ax = fig.add subplot(3,3,i*2) 
ax.imshow (imgs [0]) 
ax.set_axis_off() 
ax.set_title ("Augmentation %d" % (i+1)) 


Raw Image Augmentation 1 Augmentation 2 


Augmentation 3 Augmentation 4 Augmentation 5 


Augmentation 6 Augmentation 7 Augmentation 8 


图 6-1 对 单 张 图 像 〈 左 上 角 ) 进行 数据 增强 的 结果 
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最 后 大 家 关注 一 下 ， 我 们 使 用 了 rescale 参数 ， 将 输入 图 像 中 的 数值 从 ints 编码 的 0-255 缩 
小 到 0 和 1 之 间 的 数字 。 当 然 ， 这 里 也 可 以 换 成 标准 正 态 分 布 。 通 过 类 似 方 法 ， 可 以 有 效 地 提 
升 图 像 分 类 的 准确 性 。 具 体 原因 类 似 在 上 一 讲 提 到 假如 批 正则 化 层 ， 对 数据 进行 正 态 分 布 转换 、 
提升 模型 表现 一 样 ， 深 度 神 经 网 络 由 于 层 数 很 深 ， 如 果 额 外 引入 系统 性 的 误差 《如 模型 习惯 处 
理 标准 正 态 分 布 输入 ， 结 果 输 入 数据 是 0~255 的 图 像 ) ， 容 易 干 扰 模型 稳定 性 ， 因 此 最 好 尽 可 
地 让 数值 在 一 个 较 小 的 范围 内 降低 模型 在 优化 过 程 中 的 搜索 空间 。 


6.3 参考 文献 及 网 页 链接 
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本 章 将 讲述 如 何 使 用 基于 批量 梯度 下 降 算 法 的 凸 优化 模块 ， 优 化 模型 参数 。 

本 章 的 标题 虽然 是 “愚公移山 ”， 但 这 并 不 代表 这 个 步骤 做 的 工作 很 机 械 、 很 简单 。 上 一 
章 提 到 ， 数 据 科学 家 在 构建 最 初 的 模型 过 程 中 ， 主 要 时 间 花 费 在 生成 器 的 编写 上 ， 然 后 模型 杠 
架 可 以 基于 发 表 论 文 的 经 典 模型 微调 ， 模 型 的 参数 优化 可 以 直接 用 TensorFlow、Keras 等 框架 写 
好 的 轮子 。 实 际 上 ， 我 们 不 花费 大 量 时 间 编 写 这 块 内 容 的 代码 ， 并 不 代表 不 需要 花费 大 量 时 间 
调试 这 块 内 容 的 参数 。 

需要 花费 大 量 精力 调试 这 部 分 内 容 的 原因 很 简单 ,很 多 情况 下 , 我们 写 了 成 千 上 万 行 代码 、 
搭建 了 一 个 模型 的 整体 框架 之 后 运行 ， 模 型 不 收敛 ， 准 确 率 长 期 得 不 到 提升 。 此 时 可 能 改 一 下 
这 部 分 内 容 涉 及 的 几 个 参数 之 后 ， 比 如 学 习 率 以 及 第 5 章 讲述 卷 积 时 提 到 常见 错误 3 提 到 的 参 
数 的 初始 化 方法 ， 这 个 模型 就 能 收敛 。 

在 读者 开始 具体 学 习 各 种 优化 算法 之 前 ， 为 了 防止 读者 被 公式 、 代 码 整 慌 ， 先 简单 对 优化 
模型 这 部 分 打 个 比方 。 常 说 深度 学 习 如 同 “ 炼 丹 ”， 炼 丹 师 借助 了 火 的 热量 去 炼丹 ， 需 要 做 的 
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只 是 控制 “火候 ”， 以 及 一 次 炼 几 个 丹 药 而 已 ， 如 同 训练 模型 也 不 需要 自己 动手 计算 什么 ， 全 
都 交 给 计算 机 ， 但 这 并 不 代表 炼丹 师 什 么 都 没 做 ， 丹 药 就 自己 练 出 来 了 。 控 制 火候 、 加 药 量 是 
非常 重要 的 经 验 。 

我 们 炼丹 的 原则 包括 : 


日 “ 先 用 大 火 迅 速 进入 状态 ， 后 用 小 火 慢 炖 。 

。 每 次 丹 炼 得 越 多 ， 产 量 就 越 高 ， 丹 就 炼 得 越 快 。 但 不 要 一 次 炼 太 多 丹 药 ， 要 和 炼丹 炉 大 
小 匹配 ， 小 炉子 放 过 多 丹 药 会 影响 产 出 品质 。 

e 每 次 炉子 里 要 炼 的 丹 加 得 多 ， 火 就 要 加 得 更 旺 ， 防 止 单个 丹 药 分 到 的 热量 不 足 。 


深度 学 习 模型 优化 过 程 中 ， 炼 丹 炉 就 是 GPU 等 计算 卡 ， 火 候 就 是 学 习 率 ， 每 次 炼 几 枚 丹 药 
就 是 批量 大 小 。 因 此 ， 接 下 来 说 的 各 种 基于 动量 、 自 适应 度 调整 学 习 率 的 算法 ， 无 非 就 是 在 实 
现 炼 丹 原 则 1 一 一 “ 先 大 火 后 小 火 ”。 

具体 每 次 训练 多 少 样本 则 取决 于 GPU 显存 一 次 能 装 下 多 少 样本 ， 如 果 是 大 量 分 布 式 训练 ， 
样本 量 就 可 以 增加 到 几 百 、 上 千 ， 但 增加 每 次 训练 样本 量 (batch_size) 的 同时 ， 学 习 率 也 需要 
有 相应 的 上 升 。 这 部 分 内 容 算法 没 法 帮助 实现 , 主要 需要 读者 根据 自身 机 器 性 能 进行 选择 。 当 然 ， 
这 里 并 非 机 器 越 多 、 显 存 越 大 ， 只 要 调 高 并 行 度 、 增 加 学 习 率 就 可 以 无 限 地 增加 每 次 训练 的 样 
本 量 。 目 前 ， 本 章 介 绍 的 基于 随机 梯度 下 降 的 方法 ， 对 于 Resnet-50 模型 ， 最 多 同时 计算 8192 
个 样本 ， 更 大 的 批量 将 会 导致 训练 无 法 收敛 ， 结 果 准 确 率 显著 降低 ， 因 此 已 经 有 人 开始 尝试 
新 的 算法 ， 如 Berkeley 提出 的 层级 对 应 的 适应 率 缩放 算法 (Layer-wise Adaptive Rate Scaling, 
LARS) ， 就 可 以 让 批量 大 小 扩大 到 更 大 的 级 别 〈 如 32KB) 而 不 损失 结果 准确 度 。 读 者 有 兴趣 
可 以 去 阅读 论文 ， 我 们 这 里 提出 这 一 点 ， 只 是 为 了 让 读者 认识 到 虽然 本 章 介 绍 的 都 是 基于 随机 
梯度 下 降 的 一 系列 方法 ， 但 是 这 些 方法 并 非 全 部 。 

最 后 ， 丹 药 有 好 炼 的 和 难 炼 的 种 类 ， 深 度 学 习 模型 同样 有 容易 训练 的 和 较 难 训练 的 。 容 易 
训练 的 模型 、 数 据 ， 可 能 参数 怎么 设置 ， 结 果 都 会 很 好 ， 区 别 不 大 ， 但 这 并 不 意味 着 所 有 模型 
都 容易 训练 ， 结 果 都 和 参数 无 关 ， 有 具体 到 实战 时 还 有 很 多 需要 注意 的 地 方 。 





7.1 随机 梯度 下 降 


前 面 提 到 ， 深 度 学 习 的 “批量 梯度 下 降 ”， 可 以 理解 为 一 群 人 拿 着 土管 ， 一 点 一 点 把 山上 
的 土 给 搬 下 山 。 那 么 这 一 点 具体 应 该 如 何 实现 呢 ? 其 实在 第 4 章 就 用 Python 实现 了 一 个 简单 的 
随机 批量 梯度 下 降 (Stochastic gradient descent, SGD) ， 这 里 再 回顾 一 下 。 这 里 随机 梯度 下 降 的 
算法 是 : 
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输入 : 参数 theta 学 习 率 learning rate 

while: 学 习 过 程 : 
从 训练 集中 取 m 个 样本 ， 作 为 小 批量 样本 
利用 取出 的 样本 ， 估 计 梯 度 grad 
更 新 参数 theta = theta - learning. rate*grad 





算法 用 代码 实现 如 下 : 


def func sgd(theta, eproch, xi, 
for i in range (eproch): 
grad - get grad(xi, yi, zi, theta) 


yi, zi, learning rate): 


theta = theta-grad*learning rate 
return theta 
LER 
7.2 动量 法 
一 一 


单纯 的 随机 梯度 下 降 有 一 个 问题 ， 就 是 无 法 合理 协调 整体 趋势 和 局 部 梯度 之 间 的 关系 。《 深 
度 学习 轻 松 学》 一 书 中 做 了 一 个 非常 形象 的 比喻 ， 就 是 极限 运动 的 U 形 赛 道 ， 如 图 7-1 所 示 。 








(图 片 来 源 : http://img.bendibao.com/shanghai/201110/24/20111024165641447.JPG) 
图 7-1 随机 梯度 下 降 寻 找 最 小 值 ， 在 优化 U 型 地 貌 时 收 伊 效 率 不 高 














这 里 的 总 体 趋势 是 从 后 往 前 ， 但 实际 上 左右 之 间 的 梯度 是 远 高 于 前 后 之 间 的 ， 所 以 随机 梯 
度 下 降 过 程 中 ， 模 型 会 过 多 地 被 左右 方向 的 局 部 梯度 带 着 走 。 
为 了 在 优化 过 程 中 也 考虑 到 总 体 的 进程 ， 我 们 这 里 引入 动量 来 代表 这 种 整体 性 : 
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输入 : 参数 theta， 学 习 率 leaming rate， 动 量 参数 alpha， 初 始 速度 v 
while: 学 习 过 程 : 

从 训练 集中 取 m 个 样本 ， 作 为 小 批量 样本 

利用 取出 的 样本 ， 估 计 梯 度 grad 

更 新 速度 v= alpha*v - learning rate*grad 

更 新 参数 theta = theta + v 





算法 用 代码 实现 如 下 : 


def func momentum(theta, eproch, xi, yi, zi, learning rate, alpha, 
velocity): 
for i in range (eproch): 
grad = get grad(xi, yi, zi, theta) 
velocity - alpha*velocity - grad*learning rate 
theta = theta + velocity 


return theta 


73 自 适应 学 习 率 算法 


我 们 注意 到 动量 法 中 的 参数 更 新 环节 不 再 是 直接 减 去 梯度 , 而 是 在 梯度 中 引入 了 一 个 动量 。 
这 样 在 参数 更 新 时 ， 减 去 梯度 的 同时 ， 也 会 加 上 动量 的 大 小 。 更 重要 的 是 ， 这 里 动量 在 更 新 时 
会 乘 以 一 个 衰减 系数 alpha， 这 样 实际 上 越 到 后 来 ， 参 数 的 更 新 幅度 就 越 小 ， 保 证 了 “ 先 用 大 火 
后 用 小 火 ” 的 原则 。 

实际 上 为 了 实现 这 个 原则 , 我 们 既 可 以 在 学 习 率 中 引入 动量 , 也 可 以 直接 控制 学 习 率 的 大 小 ， 
但 动量 法 为 了 让 learning_rate 这 个 参数 更 加 容易 调试 ， 又 额外 引进 了 其 他 的 超 参数 alpha， 还 给 
调 参 人 员 增 加 了 一 个 需要 测试 的 参数 。 

因此 为 了 简化 调 参 ， 就 有 算法 试图 找 出 可 以 直接 迭代 得 到 最 合理 的 学 习 率 的 算法 ， 这 一 系 
列 算法 被 称 作 自 适应 学 习 率 算法 。 自 适应 学 习 率 算法 背后 的 思路 ， 背 后 有 工科 PID 控制 器 的 思 
维 方 式 。 

这 种 思维 方式 是 ， 比 如 我 们 的 炼丹 炉 ， 目 标 是 维持 温度 在 600"， 然 后 有 一 个 加 热 器 和 一 个 
传感器 。 于 是 希望 有 一 个 控制 器 ， 在 炼丹 炉 温 度 低 的 情况 下 让 加 热 器 加 热 ， 在 炼丹 炉 温度 高 的 
情况 下 让 加 热 器 停止 加 热 ， 炼 丹 炉 接近 目标 温度 时 会 调 低 加 热 器 的 加 热 功率 大 小 ， 但 如 果 希 望 
这 个 调整 过 程 中 温度 变化 平缓 、 减 少 波动 ， 可 能 就 不 止 需要 考虑 当前 温度 和 目标 温度 的 差距 ( 比 
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例 Proportional, P) ， 还 需要 考虑 这 一 差距 在 过 去 时 间 内 的 累计 积分 〈 积 分 Integral，I) 、 不 同 
时 间 点 之 间 的 变化 率 〈 微 分 Derivative，D) 。 于 是 可 以 引入 一 个 PID 控制 器 ， 这 里 PID 控制 器 
的 含义 及 其 使 用 方法 ， 用 Python 描述 如 下 : 


class PID(object): 
* pid p: 当前 误差 。 如 目标 是 600 度 ， 现 在 500 HE, p 就 是 100 
* pid i: 累计 误差 。p 在 时 间 上 的 累计 之 和 。 
* pid d: 误差 变化 。 当 前 p 同 之 前 时 间 点 p 做 减法 。 
def _ init (self, kp, ki, kd): 
self.kp = kp 
self.ki — ki 
self.kd = kd 
self.pid p = self.pid i = self.pid d = 0 


def update error (self, error, sample time): 
self.pid d = error - self.pid p 
self.pid p — error 


self.pid i += sample time 


def get update (self): 
return self.pid p * self.Kp + \ 
self.pid i * self.Ki + self.pid d * self.Kd 


* 初始 化 PID 控制 器 kp, ki, kd 三 个 系数 需要 根据 实际 情况 调整 ， 达 到 最 优 的 控制 效果 
Pid heater = PID(kp-kp init, ki-ki init, kd-kd init) 


+ 对 每 个 时 间 点 ， 更 新 PID 值 ， 包 括 两 步 操作 : 

# 1. delta T 是 目标 炉 温 和 当前 炉 温 的 差距 ， 认为 每 秒 更 新 一 次 
Pid heater.update error(delta T, sample time-1) 

* 2. PID 控制 器 返回 加 热 器 功率 大 小 


double heater value = Pid heater.get error(); 


如 果 将 梯度 理解 成 当前 参数 同 最 优 参数 之 间 的 误差 ， 那 么 其 实 可 以 用 PID 控制 器 的 思想 来 
改变 学 习 率 。 这 里 我 们 介绍 AdaGrad 以 及 Adam 两 种 算法 。 
(1) AdaGrad 算法 考虑 的 是 PID 中 的 PI 两 项 ， 即 当前 误差 、 累 计 误差 。 累 计 误 差 越 大 ， 
学 习 率 越 小 。 





输入 : 参数 theta， 学 习 率 learning rate， 小 常数 delta 
设置 累计 误差 量 r=0 

while: 学 习 过 程 : 
从 训练 集中 取 m 个 样本 ， 作 为 小 批量 样本 
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利用 取出 的 样本 ， 估 计 梯 度 grad 
更 新 梯度 的 累计 平方 误差 ，r=r+ grad x grad〈 向 量 叉 乘 ， 各 元 素 乘 方 后 相 加 ) 
更 新 参数 theta -= learning rate x grad / (delta+sqrt(r)) 





算法 用 代码 实现 如 下 : 


def func adagrad(theta, eproch, xi, yi, zi, learning rate, delta): 
r=0 
for i in range (eproch) : 
grad = get grad(xi, yi, zi, theta) 
r += np.dot(grad, grad) 
theta — theta - learning rate/ (delta*np.sqrt (r)) * grad 


return theta 


(2) Adam 算法 ， 同 样 考 虑 的 是 PID 中 的 PI 两 项 ， 不 过 这 里 工 既 跟 AdaGrad 算法 一 样 计 
算 了 平方 误差 ， 同 样 也 考虑 了 累计 的 一 阶 误差 ， 更 新 方法 也 稍微 复杂 一 些 : 





输入 : 参数 theta， 学 习 率 leaming_rate， 小 常数 delta 
指数 衰减 速率 rhol rho2， 
迭代 次 数 t=0 

while: 学 习 过 程 : 
从 训练 集中 取 m 个 样本 ， 作 为 小 批量 样本 
利用 取出 的 样本 ， 估 计 梯 度 grad 
t-tHl 
更 新 有 偏 一 阶 矩 估计 ，s = rhol*s + (1-rhol)*grad 
更 新 有 偏 一 阶 矩 估计 ，r = rho2*r + (1-rho2)*grad x grad 
修正 一 阶 矩 偏差 : s=s/ (1-rhol^t) 
修正 二 阶 矩 偏差 : rz=r/(1-rho2^D 
更 新 参数 theta -= learning rate * s / (delta+sqrt(D) 





算法 用 代码 实现 如 下 : 


def func adam(theta, eproch, xi, yi, zi, learning rate, delta, rhol, 
rho2): 
gum 
T= o 
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for i in range (eproch) : 
grad = get grad(xi, yi, zi, theta) 
t = i+l 
s = rhol * s + (I-rhol) * grad 
r = rho2 * 2 + (1-rho2) * np.dot (grad, grad) 
s hat = s / (1-rhol**t) 
r hat = r / (1-rho2**t) 


theta = theta- learning rate/(delta*np.sqrt(r hat)) * s hat 


return theta 


Adam 优化 器 相对 好 控制 ， 通 常 一 个 模型 完成 后 可 以 设置 learning rate-1e-3 的 学 习 率 ， 先 
跑 一 个 基准 模型 ， 看 看 3~5 个 batch 以 内 是 否 有 收敛 迹象 。 如 果 不 收敛 ， 就 降低 学 习 率 到 le-4、 
1e-5 继续 训练 。 假 如 还 不 收敛 ， 就 去 检查 模型 是 否 使 用 了 合理 的 初始 化 (如 xavier_init) ， 数 据 
输入 时 是 否 进行 标准 化 (图 像 值 除 以 255， 或 者 变 成 标准 正 态 分 布 ) ， 再 有 问题 ， 最 后 考虑 换 
个 网 络 架构 ， 以 及 数据 量 是 否 偏 少 。 一 旦 模型 收敛 、loss 值 下 降 就 可 以 进一步 通过 微调 参数 、 
增加 正则 化 等 方法 进行 模型 优化 ， 继 而 考虑 训练 多 个 模型 进行 融合 等 。 


7.4 实验 案例 


这 里 用 之 前 定义 的 各 个 优化 器 来 做 一 个 “有 息 山 游戏 ”。 首 先 通过 scipy.interpolate.rbf 随机 生 
成 一 个 等 高 线 图 ， 如 图 7-2 所 示 。 





import numpy as np 

from scipy.interpolate import Rbf 
import matplotlib.pyplot as plt 
$matplotlib inline 


np.random.seed (1981) 

X, y, Z = np.random.random((3, 10)) 
Xi, yi = np.mgrid[0:1:100j, 0:1:100j] 
func = Rbf(x, y, z, function-'linear') 


zi = -1*func(xi, yi) 


fig, ax = plt.subplots() 

dy, dx - np.gradient (-zi.T) 

contours = ax.contour(xi, yi, zi[:,::-1], linewidths-2) 
ax.clabel (contours) 


plt.show() 
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图 7-2 随机 生成 等 高 线 图 


我 们 的 目的 就 是 从 任意 一 点 起 始 ， 借 助 前 面 定义 的 优化 器 ， 上 中 间 黄 色 的 高 地 。 借 助 等 高 
线 图 ， 可 以 知道 当前 位 置 的 高 度 〈zi) ， 以 及 周围 x、y 方向 梯度 的 大 小 (dx, dy) 。 将 这 两 个 信 
息 交 给 前 面 定义 的 优化 器 ， 看 看 结果 如 何 〈 见 图 7-3) 。 注 意 这 里 几 个 优化 器 函数 相 比 之 前 的 定 
义 都 有 所 改进 ， 返 回 的 不 是 最 终 所 在 的 点 ， 而 是 优化 过 程 中 的 完整 路 径 。 











position init = np.array([0.7, 0.6]) 
velocity = np.array([-0.01, -0.01]) 
alpha = 0.5 

learning rate - 0.05 

eproch - 10000 

delta = 1e-7 

rhol = 0.9 

rho2 = 0.999 


def func sgd(theta, eproch, xi, yi, zi, learning rate): 
l posx [] 
1 posy = [] 
for i in range (eproch) : 


grad = get grad(xi, yi, zi, theta) 
theta = theta-grad*learning rate 
1l posx.append (theta[0]) 

l posy.append(1-theta[1]) 


return 1 posx, 1 posy 


def func momentum(theta, eproch, xi, yi, zi, learning rate, alpha, 
velocity): 


l posx [1 
1l posy [1 
for i in range (eproch): 


grad = get grad(xi, yi, zi, theta) 
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velocity = alpha*velocity - grad*learning rate 
theta = theta + velocity 

1 posx.append (theta[0]) 

1 posy.append(1-theta[1]) 


return 1 posx, 1 posy 
def func adagrad(theta, eproch, xi, yi, zi, learning rate, delta): 


p 
pi 


M 


1 posx 
1 posy 
geom (y 


for i in range (eproch): 
grad = get grad(xi, yi, zi, theta) 
r += np.dot(grad, grad) 
theta = theta- learning_rate/ (delta+np. sqrt (r) ) * grad 
l_posx.append (theta[0]) 
l_posy.append (1-theta[1]) 


return l_posx, l_posy 


def func_adam(theta, eproch, xi, yi, zi, learning_rate, delta, rhol, 
rho2): 


1 posx 


l posy 


[] 
üu 


for i in range (eproch): 
grad = get grad(xi, yi, zi, theta) 
tr 5T 
S — rhol * s + (1-rhol) * grad 
r = rho2 * 2 + (1-rho2) * np.dot (grad, grad) 
s hat — s / (1-rhol**t) 
r hat — r / (1-rho2**t) 


theta = theta- learning rate/(delta*np.sqrt(r hat)) * s hat 
1 posx.append(theta[0]) 
1 posy.append(1-theta[1]) 


return 1 posx, 1 posy 
1 posx gd,l posy gd = func sgd( 


position init, eproch, 


xi, yi, zi, learning rate) 
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练 


1 _ posx momentum,l posy momentum = func momentum( 
position init, eproch, 


xi, yi, zi, learning rate, alpha, velocity) 


l posx adagrad,l posy adagrad = func adagrad( 
position init, eproch, 


xi, yi, zi, learning rate, delta) 


l posx adam,l posy adam = func adam( 
position init, eproch, 


xi, yi, zi, learning rate, delta, rhol, rho2) 


fig, ax = plt.subplots() 

contours - ax.contour(xi, yi, zi[:,::-1], linewidths-2) 
ax.clabel (contours) 

ax.plot(l posx gd, 1 posy gd, ".", label-"SGD") 
ax.plot(l posx momentum, 1 posy momentum, "g.", label-"Momentum") 
ax.plot(l posx adagrad, 1 posy adagrad, "y.", label-"Adagrad") 
ax.plot(l posx adam, 1 posy adam, "C.", label-"Adam") 


ax.plot(l posx gd[-1], 1 posy gd[-1], "yo 
ax.plot(l posx momentum[-1], 1 posy momentum[-1], "ro") 
ax.plot(l posx adagrad[-1], 1 posy adagrad[-1],  "ro") 
ax.plot(l posx adam[-1], 1l posy adam[-1], "ro") 
ax.legend() 

plt.show() 

















00 02 04 06 08 10 


图 7-3 使 用 不 同 的 优化 器 寻找 等 高 线 图 最 高 点 


可 见 从 [0.7, 0.6] 处 起 始 ， 使 用 0.05 的 学 习 率 ， 经 过 10 000 次 迭代 后 ， 几 种 算法 都 成 功 上 
了 最 高 点 ， 并 且 路 径 也 十 分 接近 。 这 里 留 给 读者 两 个 思考 问题 : 

o “这些 优 化 器 的 收 敏 速度 有 什么 区 别 〈 试 试 更 少 的 迁 代 次 数 ， 几 种 算法 跑 了 多 少 ) ? 

e ”改变 起 始 位 置 出 发 ， 结 果 有 什么 区 别 ? 
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学 有 余力 的 读者 也 可 以 上 网 查 一 下 如 何 用 matplotlib 制作 动态 图 ， 动 态 绘制 各 优化 器 生成 的 
路 径 ， 得 到 更 好 的 可 视 化 结果 。 
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本 章 用 一 个 Keras 中 的 官方 示 
例 (https://github.com/fchollet/keras/ 
blob/master/examples/ cifar10_cnn.py) 
来 结束 基础 部 分 的 内 容 。 我 们 的 分 类 
对 象 是 CIFAR-10 数据 集 。 这 个 数据 
集 包 含 了 6 万 张大 小 为 32X32 的 彩 
色 图 片 ， 其 中 50000 张 作 为 训练 集 、 
10000 张 作 为 测试 集 ， 这 些 图 片 进 而 
可 以 分 成 10 个 种 类 ， 如 图 8-1 所 示 。 





CIFAR-10 数据 分 类 
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图 8-1 CIFAR-10 数据 集 的 10 个 分 类 种 类 及 其 对 应 的 实例 图 片 
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本 章 的 案例 就 是 使 用 Keras 构建 深度 神经 网 络 模型 ， 然 后 基于 构建 好 的 深度 神经 网 络 模型 
对 这 个 数据 集 进行 训练 ， 最 后 检验 模型 预测 的 准确 性 。 
首先 进行 一 些 前 期 准备 ， 调 用 numpy 以 及 Keras 中 的 相关 函数 : 


# 初始 化 

from future import print function 

import numpy as np 

from keras.callbacks import TensorBoard 

from keras.models import Sequential 

from keras.optimizers import Adam 

from keras.layers import Dense, Dropout, Activation, Flatten 
from keras.layers import Conv2D, MaxPool2D 

from keras.utils import np utils 

from keras import backend as K 

from keras.callbacks import ModelCheckpoint 

from keras.preprocessing.image import ImageDataGenerator 


from keras.datasets import cifarlO 


from keras.backend.tensorflow backend import set session 
import tensorflow as tf 

config — tf.ConfigProto() 

config.gpu options.allow growth-True 
set session(tf.Session (config-config) ) 
np.random.seed(0) 

# 定义 变量 

batch size = 32 

nb classes - 10 

nb epoch - 50 

img rows, img cols - 32, 32 

nb filters = [32, 32, 64, 64] 

pool size = (2, 2) 


kernel size = (3, 3) 


(X train, y train), (X test, y test) = cifarl0.load data() 
X train - X train.astype("float32") / 255 
X test = X test.astype("float32") / 255 


y train = y train 
y test — y test 


input shape = (img rows, img cols, 3) 
Y train = np utils.to categorical(y train, nb classes) 


Y test = np utils.to categorical(y test, nb classes) 


接 下 来 的 部 分 将 对 照 本 书 第 5 章 开头 部 分 提 到 的 三 段 论 式 架构 , 继而 对 照 着 第 6 章 、 第 5 章 、 
第 7 章 的 内 容 介绍 ， 分 别 构建 : 
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e 处 理 的 内 容 是 什么 一 一 构建 基于 生成 器 的 批量 生成 输入 模块 。 
e 为 什么 可 以 得 到 这 样 的 结果 一 一 用 各 种 零件 搭建 深度 神经 网 络 。 
。 ”训练 过 程 应 该 怎么 做 一 一 使 用 西 优化 模块 训练 模型 。 


8.1 上游 部 分 一 一 基于 生成 器 的 批量 生成 输入 模块 


本 节 将 基于 生成 器 的 批量 生成 输入 模块 : 





datagen = ImageDataGenerator( 
featurewise center-False, 
samplewise center-False, 
featurewise std normalization-False, 
samplewise std normalization-False, 
zca whitening-False, 
rotation range-O0, 
width shift range-0.1, 
height shift range-0.1, 
horizontal flip-True, 


vertical flip-False) 


datagen.fit(X train) 


8.2 核心 部 分 一 一 用 各 种 零件 搭建 深度 神经 网 络 


本 节 将 用 各 种 零件 搭建 深度 神经 网 络 : 





model = Sequential() 

model.add(Conv2D(nb filters[0], kernel size, padding-'same', input 
shape-X train.shape[1:])) 

model.add(Activation('relu')) 

model.add(Conv2D(nb filters[1], kernel size)) 

model.add(Activation('relu')) 

model.add(MaxPool2D(pool size-pool size)) 

model.add(Dropout (0.25)) 


model.add(Conv2D(nb filters[2], kernel size, padding-'same')) 
model.add(Activation('relu')) 

model.add(Conv2D(nb filters[3], kernel size)) 
model.add(Activation('relu')) 

model.add(MaxPool2D(pool size-pool size)) 

model .add (Dropout (0.25)) 
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model.add(Flatten()) 
model.add(Dense(512)) 
model.add(Activation('relu')) 
model.add (Dropout (0.5)) 

model .add (Dense (nb classes)) 


model.add(Activation('softmax')) 


构建 的 模型 如 图 8-2 所 示 。 





input | (None, 32, 32, 3) 
output: | (None, 32, 32.3) 





conv2d 1 input: InputLayer 




















input: | (None, 32,32, 3) 
output: | (None, 32, 32,32) 





conv2d 1: Conv2D 























input: | (None, 32,32, 32) 
output: | (None, 32,32, 32) 





activation. 1: Activation 

















input: | (None, 32, 32, 32) 
output: | (None, 30, 30, 32) 





conv2d 2: Conv2D 

























(None, 30, 30, 32) 
(None, 30, 30, 32) 









activation. 2: Activation 








input: | (None, 30,30, 32) 
output: | (None, 15.15.32) 





max. pooling2d. 1: MaxPooling2D 




















input: | (None, 15, 15, 3 
output: | (None, 15, 15, 3: 





dropout, 1: Dropout 








input: | (None, 15. 15.32) 
output: | (None. 15. 15.64) 





conv2d 3: Conv2D 




















activation 3: Activation 























input: | (None, 15, 15,64) 
output: | (None, 13, 13,64) 





conv2d_4: Conv2D 

















input | (None. 13,13,64) 
output: | (None, 13,13, 64) 





activation, 4: Activation. 























input: | (None, 13, 13,64) 





max. pooling2d. 2: MaxPooling2D 








output | (None, 6,6, 64) 











v 
input: | (None, 6.6.64) 


output: | (None, 6, 6.64) 








dropout. 2: Dropout 


























flatten. 1: Flatten 

















input: | (None, 2304) 
output: | (None, 512) 





dense 10: Dense 




















input: | (None, 512) 





activation. 5: Activation 











output: | (None, 512) 








input: [ (None, 512) 
output: | (None, 512) 





dropout, 3: Dropout 














y 
input: | (None,512) 








dense_11: Dense 











output: | (None, 10) 








Y 


activation 6: Activation 





input: | (None, 10) 
output: | (None, 10) 




















8-2 构建 卷 积 神经 网 络 用 来 分 类 CIFAR-10 数据 集 





8.3 下 游 部 分 一 一 使 用 凸 优化 模块 训练 模型 





本 节 将 使 用 凸 优化 模块 训练 模型 : 
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adam = Adam(1r-0.0001) 
model.compile(loss-'categorical crossentropy', 
optimizer-adam, 


metrics-['accuracy']) 
最 后 ， 开 始 训练 模型 ， 并 且 评 估 模 型 准确 性 : 
+ 训练 模型 


best model = ModelCheckpoint ("cifarl0 best.h5", monitor-'val loss', 
verbose-0, save best only-True) 

tb = TensorBoard(log dir-"./logs") 

model.fit generator( 
datagen.flow(X train, Y train, batch size-batch size), 
steps per epoch-X train.shape[0] // batch size, 
epochs-nb epoch, verbose-1, 
validation data-(X test, Y test), 
callbacks-[best model,tb]) 


+ 模型 评分 

Score = model.evaluate(X test, Y test, verbose-0) 

# 输出 结果 

print('Test score:', score[0]) 

print("Accuracy: $.2f$$" % (score[1]*100)) 

print ("Compiled!") 

以 上 代码 作者 使 用 GPU 测试 执行 ，50 个 epoch 中 ， 每 个 epoch 用 时 12 秒 左 右 ， 总 计 用 时 
在 15 分 钟 以 内 。 约 25 个 epoch 后 ， 验 证 集 的 准确 率 数 会 逐步 收敛 在 0.8 左右 ， 最 终 的 准确 率 是 
82.5396. 

这 并 不 是 一 个 很 高 的 准确 率 ， 又 应 当 如 何 进一步 提高 模型 的 分 类 准确 率 呢 ? 让 我 们 开始 本 
书 实战 阶段 的 内 容 吧 ， 通 过 实战 代码 的 讲解 来 谈 一 谈 如何 构 建 一 个 更 好 的 模型 。 


8.4 参考 文献 及 网 页 链接 





[1] CIFAR-10 - Object Recognition in Images | Kaggle Available at: https://www.kaggle.com/c/ 
cifar- 10/data. 
[2] Fchollet. fchollet/keras. GitHub Available at: https://github.com/fchollet/keras/blob/master/ 


examples/cifarl0 cnn.py. 
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本 章 将 会 介绍 深度 学 习 中 非常 实用 的 一 个 技术 : 迁移 学 习 。 本 章 的 所 有 内 容 都 会 围绕 一 个 
任务 ， 识 别 一 张 图 是 猫 还 是 狗 。9.1 节 先 会 搭建 一 个 普通 的 深度 神经 网 络 来 尝试 解决 该 问题 ，9.2 
节 会 使 用 迁移 学 习 技 术 ，9.3 节 会 介绍 模型 融合 技术 ， 达 到 非常 高 的 准确 率 。 

接 下 来 的 内 容 ， 我 们 以 kaggle 上 的 一 个 比赛 一 一 猫 狗 大 战 Chttps://www.kaggle.com/c/ dogs- 
vs-cats-redux-kernels-edition) 的 数据 集 为 例 ， 来 谈 谈 如 何 基于 迁移 学 习 实现 高 准确 率 的 猫 狗 图 像 
分 类 。 该 比赛 提供 了 25000 张 图 作为 训练 集 ， 猫 狗 各 占 一 半 ， 测 试 集 12500 张 ， 没 有 标定 是 猫 
还 是 狗 。 

我 们 先 随机 取 一 部 分 样本 ， 进 行 可 视 化 : 


import os 
import cv2 
import random 


import matplotlib.pyplot as plt 


$matplotlib inline 


P 
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$config InlineBackend.figure format = 'retina' 


path = 'train' 

filenames = os.listdir (path) 

plt.figure(figsize-(12, 10)) 

for i, filename in enumerate (random.sample (filenames, 12)): 
plt.subplot(3, 4, i41) 
plt.imshow(cv2.imread(os.path.join(path, filename)) [:,:,::-1]) 


plt.title (filename) 


其 结果 如 图 9-1 所 示 。 
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图 9-1 随机 挑选 出 来 的 12 张 猫 狗 图 像 可 视 化 ， 可 以 看 到 形状 大 小 不 一 

其 中 ， 带 百 分 号 的 那 两 行 代码 是 jupyter notebook 中 特有 的 ， 它 能 够 让 matplotlib 在 网 页 中 
显示 出 比较 好 看 的 图 片 。 

我 们 可 以 看 到 数据 集 图 像 大 小 不 一 ， 颜 色 多样 。 图 像 中 的 主体 除了 是 猫 狗 以 外 ， 还 有 可 能 
是 人 ， 因 此 识别 起 来 并 不 简单 。 下 面 搭建 一 个 卷 积 神经 网 络 来 尝试 一 下 。 





























9.1 猫 狗 大 战 1.0 一 一 使 用 卷 积 神经 网 络 直接 进行 训练 





9.1.1 导入 数据 
我 们 在 Linux 上 可 以 通过 1s 命令 和 head 命令 很 容易 地 查看 数据 集 train test 文 件 夹 中 的 文件 名 : 
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ls train | head 


运算 结果 : 


# out 
cat.0.jpg 
cat.1.jpg 
cat.10.jpg 
cat.100.jpg 
cat.1000.3jpg 
cat.10000.jpg 
cat.10001.jpg 
cat.10002.jpg 
cat.10003.jpg 
cat.10004.jpg 


我 们 可 以 看 到 数据 集 的 文件 名 都 是 由 这 样 的 形式 命名 的 : cat. 序号 .jpg 和 dog. 序号 jpg; 
猫 狗 各 占 一 半 ， 因 此 序号 的 范围 是 0-12499. 
由 于 数据 的 格式 非常 规则 ， 因 此 我 们 很 容易 写 出 下 面 的 代码 : 


import cv2 
import numpy as np 


from tqdm import tqdm 


n = 25000 
width = 128 


X = np.zeros((n, width, width, 3), dtype-np.uint8) 
y = np.zeros((n,), dtype-np.uint8) 


for i in tqdm(range (n/2)): 
X[i] = cv2.resize(cv2.imread('train/cat.$d.jpg' $ i), (width, 
width)) 
X[i-n/2] = cv2.resize(cv2.imread('train/dog.$d.jpg' $ i), (width, 
width)) 


y[n/2:] 2 1 
由 于 模型 中 存在 全 连接 层 ， 我 们 必须 将 所 有 图 片 都 整理 成 一 样 的 大 小 ， 因 此 我 们 先 使 
用 cv2.imread 读 取 图 片 , 然后 用 cv2 resize 将 图 片 缩放 至 一 样 的 大 小 ， 这样 就 完成 了 数据 的 读 取 。 


为 了 适 配 Keras 的 训练 API， 我 们 先 构 建 了 一 个 (n, width, width, 3) 的 四 维 矩 阵 ， 然 后 一 
张 一 张 图 放 入 X 的 对 应 位 置 ， 而 不 是 使 用 Python 原生 的 数组 。 
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为 了 确定 读 取 的 数据 是 正确 的 ， 随 机 取 几 张 图 看 看 : 


import random 


import matplotli 


$matplotlib inli 


sconfig InlineBac 





b.pyplot as plt 


ne 


kend.figure format = 'retina' 


plt.figure(figsize-(12, 10)) 
for i in range(12): 


random index 


7 random.randint(0, n-1) 


plt.subplot(3, 4, i*1) 


plt.imshow(X 


[random index][:,:,::-1]) 


plt.title(['cat', 'dog'][y[random index]] 


其 结果 如 图 9-2 所 示 。 




















迁移 学 习 提升 准确 率 





我 们 可 以 看 到 猫 狗 的 图 








| 








9-2 随机 挑选 出 来 的 12 张 调整 过 形状 的 图 片 





片 已 经 全 部 变 成 〈128, 128) 形状 了 。 
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9.1.3 分 割 训 练 集 和 验证 集 

我 们 知道 ， 如 果 没 有 验证 集 ， 就 无 法 评估 模型 的 性 能 、 无 法 调 参 、 无 法 知道 什么 时 候 应 该 
停止 训练 ， 因 此 需要 分 离 一 部 分 数据 做 验证 集 。 

这 里 不 需要 分 离 测试 集 ， 因 为 kaggle 本 身 就 已 经 提供 了 没有 label 的 测试 集 。 








from sklearn.model selection import train test split 
X train, X valid, y train, y valid = train test split(X, y, test. 
size-0.2) 


代码 很 简单 ， 使 用 了 sklearn 的 train test. split 函数 。 

分 离 以 后 的 X_train 有 20000 个 样本 ，X_valid 有 5000 个 样本 ， 顺 序 都 已 经 被 打 乱 了 。 

在 搭建 模型 之 前 ， 让 我 们 来 介绍 一 下 VGG16 模型 。 

VGG16 是 一 个 很 经 典 的 模型 ， 它 的 特征 提取 部 分 只 使 用 了 3X3 的 卷 积 核 ， 以 及 2X2 的 池 
化 层 。 在 它 之 前 很 多 人 都 认为 卷 积 核 要 比较 大 才能 识别 更 大 的 区 域 ， 不 过 根据 计算 可 以 知道 ， 
两 个 卷 积 核 大 小 为 3X3 的 卷 积 层 可 以 有 效 覆 盖 5X5 的 区 域 ， 同 时 还 可 以 减少 计算 量 ， 以 及 增 
加 非 线性 能 力 ， 这 也 是 VGG 系列 模型 的 核心 思想 ， 就 是 减 小 卷 积 核 ， 加 深 网 络 ， 如 图 9-3 所 示 。 

VGG 的 名 字 来 自 于 Visual Geometry Group， 这 是 牛津 大 学 的 一 个 实验 室 。 他 们 发 的 论文 标 
题 也 很 直接 : Very Deep Convolutional Networks for Large-Scale Visual Recognition， 意 思 是 用 于 
大 规模 视觉 识别 的 非常 深 的 卷 积 神经 网 络 。 





(图 来 自 论文 Rethinking the Inception Architecture for Computer Vision) 
图 9-3 两 层 3X 3 卷 积 层 覆 盖 区 域 可 视 化 





因此 ， 最 终 VGG16 的 完整 结构 是 这 样 的 : 
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img input = Input (shape=input shape) 

# Block 1 

X — Conv2D(64, (3, 3), activation-'relu', padding-'same', 
name-'block1l convl1') (img input) 

x — Conv2D(64, (3, 3), activation-'relu', padding-'same', 
name-'blockl conv2') (x) 


x = MaxPooling2D((2, 2), strides-(2, 2), name-'blockl pool') (x) 


* Block 2 


Conv2D(128, (3, 3), activation-'relu', padding-'same', 


name-'block2 convl') (x) 


X = Conv2D(128, (3, 3), activation-'relu', padding-'same', 
name-'block2 conv2') (x) 

x = MaxPooling2D((2, 2), strides-(2, 2), name-'block2 pool') (x) 

* Block 3 

X = Conv2D(256, (3, 3), activation-'relu', padding-'same', 
name-'block3 convl') (x) 

X = Conv2D(256, (3, 3), activation-'relu', padding-'same', 
name-'block3 conv2') (x) 

X = Conv2D(256, (3, 3), activation-'relu', padding-'same', 
name-'block3 conv3') (x) 

x = MaxPooling2D((2, 2), strides-(2, 2), name-'block3 pool') (x) 

# Block 4 

= Conv2D(512, (3, 3), activation-'relu', padding-'same', 

name-'block4 convl') (x) 

X = Conv2D(512, (3, 3), activation-'relu', padding-'same', 
name-'block4 conv2') (x) 

X = Conv2D(512, (3, 3), activation-'relu', padding-'same', 
name-'block4 conv3') (x) 

x = MaxPooling2D((2, 2), strides-(2, 2), name-'block4 pool') (x) 

* Block 5 

= Conv2D(512, (3, 3), activation-'relu', padding-'same', 

name-'block5 convl') (x) 

X = Conv2D(512, (3, 3), activation-'relu', padding-'same', 
name-'block5 conv2') (x) 

X — Conv2D(512, (3, 3), activation-'relu', padding-'same', 


name-'block5 conv3') (x) 


x = MaxPooling2D((2, 2), strides-(2, 2), name-'block5 pool') (x) 


# Classification block 
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= Flatten (name-'flatten') (x) 
= Dense(4096, activation-'relu', name-'fcl') (x) 


Dense(4096, activation-'relu', name-'fc2') (x) 


% X* X X 
LU 


Dense(classes, activation-'softmax', name-'predictions') (x) 
model = Model(inputs, x, name-'vggl6') 


参考 链接 : https;//github.com/fchollet/keras/blob/master/keras/applications/vggl6.py o 


我 们 在 第 11 章 部 分 还 会 介绍 如 何 基 于 VGG 模型 构建 更 复杂 的 全 卷 积 神经 网 络 ， 用 于 图 像 
分 割 。 


9.1.4 搭建 模型 


由 于 我 们 的 数据 集 只 有 25000 张 图 ， 而 ImageNet 有 上 百 万 张 图 ， 我 们 的 问题 规模 比较 小 ， 
因此 在 搭建 模型 的 时 候 进行 了 一 些 修改 : 


日 ” 卷 积 核 个 数 从 32 开始 按照 2 的 卫 次 方 递增 ， 比 如 32、64、128…… 
e 卷 积 层 后 面 添加 BatchNormalization 层 加 速 训练 。 
e 去 除 巨 大 的 全 连接 隐藏 层 ， 采 用 GlobalAveragePooling2D 降 维 。 


由 于 我 们 的 问题 是 二 分 类 问题 ， 因 此 分 类 器 使 用 sigmoid 激活 函数 ， 修 改 一 个 神经 元 。 
代码 如 下 : 


from keras.layers import * 


from keras.models import * 


inputs = Input((width, width, 3)) 
X = inputs 
for i, layer num in enumerate([2, 2, 3, 3, 3]): 


for j in range(layer num): 


E Conv2D(32*2**i, 3, padding-'same', activation-'relu') (x) 


ES BatchNormalization() (x) 
x = Activation ('relu') (x) 


x = MaxPooling2D(2) (x) 


LU 


GlobalAveragePooling2D() (x) 
x = Dropout (0.5) (x) 


D 


Dense(1, activation-'sigmoid') (x) 


model = Model(inputs, x) 
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搭建 好 模型 以 后 ， 让 我 们 来 指定 优化 器 和 loss: 


model.compile(optimizer-'adam', 
loss-'binary crossentropy', 


metrics-['accuracy']) 


如 7.3 节 提 到 的 ， 对 于 CNN 分 类 问题 而 言 ， 直 接 使 用 Adam 优化 器 以 及 对 应 的 默认 学 习 率 
(=0.001) 来 测试 模型 是 一 种 快速 判断 模型 是 否 收敛 的 “套路 ”。 由 于 我 们 的 问题 是 二 分 类 问题 ， 
激活 函数 是 sigmoid， 所 以 loss 选择 binary_crossentropy。 如 果 是 多 分 类 问题 ， 那 么 有 多 少 类 就 
设置 多 少 个 神经 元 ， 然 后 使 用 softmax 作为 激活 函数 ， 使 用 categorical crossentropy 作为 loss。 


9.1.5 模型 训练 
模型 训练 的 代码 很 简单 : 


h = model.fit(X train, y train, batch size-128, epochs-20, 
validation data-(X valid, y valid)) 


代码 中 的 h 是 为 了 保存 模型 训练 过 程 中 每 一 代 的 状态 ， 比 如 loss、 准 确 率 等 。 

我 们 选择 128 作为 batch_size， 这 个 是 经 验 值 ， 如 果 你 没有 几 百 个 GPU， 一 般 是 越 大 越 好 。 
我 们 总 共 训练 了 20 代 ， 最 后 验证 集 大 概 能 达到 90% 以 上 的 准确 率 。 

为 了 直观 地 感受 模型 训练 的 效果 ， 可 以 用 下 面 的 代码 画 出 历史 曲线 : 


plt.figure(figsize-(10, 4)) 
plt.subplot(1, 2, 1) 
plt.plot(h.history['loss']) 
plt.plot(h.history['val loss']) 
plt.legend(['loss', 'val loss']) 
plt.ylabel('1loss') 
plt.xlabel('epoch') 


plt.subplot(1, 2, 2) 

plt.plot (h.history['acc']) 
plt.plot(h.history['val acc']) 
plt.legend(['acc', 'val acc']) 
plt.ylabel('acc') 
plt.xlabel('epoch') 


其 结果 如 图 9-4 所 示 。 
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图 9-4 卷 积 神经 网 络 训练 过 程 的 loss 和 acc 可 视 化 


模型 在 验证 集 上 最 高 准确 率 是 0.9224。 


9.1.6 总 结 


由 于 这 个 模型 在 验证 集 上 的 准确 率 都 不 够 高 ， 就 不 用 浪费 机 会 提交 到 kaggle 官网 去 评测 模 
型 在 测试 集 上 的 表现 了 。 




















9.2 猫 狗 大 战 2.0 一 一 使 用 ImageNet 数据 集 预 训练 模型 


9.2.4 迁移 学 习 


迁移 学 习 是 一 个 很 有 意义 的 技术 ， 它 能 够 直接 利用 一 个 身 经 百 战 的 模型 脑子 里 的 知识 来 学 
习 新 的 数据 集 ， 达 到 与 之 前 相当 、 甚 至 比 之 前 的 模型 还 好 的 表现 。 

在 没有 迁移 学 习 以 前 ， 人 们 训练 一 个 模型 通常 要 非常 久 的 时 间 。 例 如 ， 如 果 有 4 块 NVIDIA 
Titan Black 显卡 ， 想 在 ImageNet 数据 集 上 训练 一 个 VGG16 模型 ， 那 么 进行 完整 的 训练 需要 
2-3 周 的 时 间 。 这 是 非常 浪费 时 间 、 浪 费 电费 的 做 法 ， 完 全 可 以 利用 别人 已 经 训练 好 的 VGG16 
模型 的 权 值 ， 然 后 利用 其 中 的 卷 积 核 权 重 。 

在 ImageNet 数据 集 上 预 训练 过 的 权重 ， 人 靠近 输入 的 那 几 层 卷 积 层 一 般 都 是 识别 各 种 边缘 信 
息 或 者 颜色 信息 ， 除 非 是 与 ImageNet 差异 非常 大 的 数据 集 ， 通 常情 况 下 训练 出 来 权重 可 视 化 都 
类 似 图 9-5。 
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图 9-5 


如 果 搭 建 的 模型 以 这 些 权 值 初始 化 ， 不 管 新 的 任务 需要 识别 的 东西 有 没有 在 ImageNet 的 类 
别 中 ,最 后 训练 效果 一 定 会 比 使 用 随机 初始 化 强 得 多 ， 所 以 试 试 使 用 迁移 学 习 来 做 猫 狗 大 战 吧 。 





ImageNet 

ImageNet 是 李 飞 飞 发 起 的 一 个 图 像 数 据 集 ， 就 VGG 参加 的 ILSVRC 2014 来 说 ， 该 比赛 数 
据 集约 有 120 万 张 图 片 ， 归 属于 1000 个 类 ， 每 个 图 都 是 高 清 大 图 。ImageNet 为 图 像 技术 带 来 了 
重要 的 革命 ， 有 了 大 规模 的 图 像 数 据 集 ， 卷 积 神经 网 络 变 得 更 加 强大 。 在 2015 年 甚至 已 经 超越 
了 人 类 水 平 。 

ImageNet: A Large-Scale Hierarchical Image Database Delving Deep into Rectifiers: Surpassing 


Human-Level Performance on ImageNet Classification 





9.2.2 数据 预 处 理 
VGG 论文 的 第 3.1 节 中 提 到 的 预 处 理 步骤 是 这 样 的 : 


During training, the input to our ConvNets is a fixed-size 224 x 224 RGB image. The only 


preprocessing we do is subtracting the mean RGB value, computed on the training set, from each pixel. 


意思 是 说 ， 图 片 需要 裁剪 为 《224, 224) 的 大 小 ， 预 处 理 方法 是 减 去 训练 集 每 个 像素 点 的 颜 
色 的 平均 值 。 

因此 ， 首 先 在 载 入 数据 的 时 候 ， 我 们 需要 把 宽度 修改 为 224: width = 224。 然 后 可 以 写 出 
这 样 的 预 处 理 函 数 : 





def preprocess_input (x): 
return x — [103.939; 1146-7179, 123.68] 


9.2.3 搭建 模型 
好 了 ， 终 于 可 以 利用 经 过 ImageNet 训练 的 VGG16 模型 了 。 
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首先 通过 VGG16 获取 一 个 cnn model: 


from keras.applications import VGG16 


cnn model = VGGl6(include top-False, 
input shape-(width, width, 3), 
weights-'imagenet') 

for layer in cnn model.layers: 


layer.trainable = False 


这 里 将 enn. model 的 每 一 层 都 给 锁 住 了 ， 因 为 不 希望 模型 最 开始 几 个 识别 基本 几何 特征 的 
卷 积 层 被 改变 。 
接 下 来 利用 preprocess input 预 处 理 图 片 ， 再 用 cnn model 提取 特征 ， 最 后 搭建 分 类 器 : 


inputs = Input((width, width, 3)) 


= inputs 


Lambda (preprocess input, name-'preprocessing') (x) 
- cnn model (x) 

GlobalAveragePooling2D() (x) 

= Dense(512, activation-'relu') (x) 

= Dropout (0.5) (x) 


= Dense(1, activation-'sigmoid') (x) 


KO OX X WW X X 
LU] 


model = Model(inputs, x) 
model.compile (optimizer-'adam', 
loss-'binary crossentropy', 


metrics-['accuracy']) 


9.244 模型 可 视 化 
为 了 直观 地 感受 模型 结构 ， 可 以 用 下 面 的 代码 进行 可 视 化 〈 见 图 9-6) : 


from IPython.display import SVG 


from keras.utils.vis utils import model to dot 


SVG(model to dot(model, show shapes-True).create (prog-'dot', 


format-'svg')) 
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E input: | (None, 224, 224, 3) 
input 2: InputLayer 
output: | (None, 224, 224, 3) 


input: | (None, 224, 224,3) 
output: | (None, 224, 224, 3) 














preprocessing: Lambda 




















input: | (None, 224, 224, 3) 


vgg16: Model 
Lf output: | (None, 7, 7,512) 











Y 












(None, 7, 7,512) 


global average pooling2d 1: GlobalAveragePooling2D 
| output | (None, 512) 










| input: (None, 512) 
| output: (None, 512) 




















input: | (None, 512) 


dropout. 1: Dropout 
| po output: | (None, 512) 








Y 


(None, 512) 
dense 2: Dense EE 
output: | (None, 1) 


9-6 VGG 模型 可 视 化 

















9.2.5 训练 模型 


loss 


训练 代码 与 上 面 一 样 ， 但 是 曲线 明显 好 看 许多 ， 如 图 9-7 所 示 。 











016 —— loss 0.995 ] —— acc 
——— val loss 一 一 val acc 
0.144 0.990 
0.124 
0.985 
0.10 
x 
0.08 0.980 
0:06 0.975 
0.04 
0.970 
0.02 
7 T T 
0 2 4 6 8 0 2 4 6 8 
epoch epoch 


9-7 VGG 模型 训练 过 程 的 loss 和 acc 可 视 化 
模型 在 验证 集 上 最 高 准确 率 是 0.9866。 
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9.2.6 提交 到 kaggle 评估 
首先 读 取 测 试 集 ， 代 码 很 简单 ， 就 不 多 解释 了 : 
n= 12500 


X test = np.zeros((n, width, width, 3), dtype=np.uint8) 


for i in tqdm(range (n)): 
X test[i] = cv2.resize(cv2.imread('test/$d.jpg' $ (i+1)), (width, 
width)) 
然后 用 训练 好 的 模型 进行 预测 : 


y pred = model.predict(X test, batch size-128, verbose-1) 


之 后 导入 提交 模板 ， 将 我 们 的 输出 裁剪 到 0.005, 0.995) 的 范围 内 ， 最 后 输出 到 csv 文件 : 


import pandas as pd 


df = pd.read csv('sample submission.csv') 
df['label'] = y pred.clip(min-0.005, max-0.995) 
df.to csv('pred.csv', index-None) 


提交 到 kaggle 后 ， 我 们 可 以 得 到 0.06241 左右 的 成 绩 ， 位 于 134/1314， 也 就 是 10% 左右 了 。 


9.3 猫 狗 大 战 3.0 一 一 使 用 多 种 预 训练 模型 组 合 提升 表现 


我 们 知道 ， 迁 移 学 习 是 不 需要 修改 前 面 几 十 层 卷 积 层 的 ， 但 是 在 训练 的 时 候 依然 会 浪费 很 
多 时 间 在 cnn model 上 ， 这 是 不 必要 的 。 为 了 节省 时 间 ， 可 以 先 用 enn. model 预测 得 到 特征 ， 
再 合并 特征 ， 训 练 分 类 器 进行 分 类 即 可 。 这 种 基于 原 模型 直接 得 到 预测 的 特征 ， 并 基于 原 模型 
预测 特征 做 进一步 分 析 的 方法 称 为 快速 迁移 学 习 。 

快速 迁移 学 习 的 步骤 如 下 : 


e 载 入 数据 集 

e ”搭建 预 训练 模型 (cnn_model) 

e 导出 数据 集 的 特征 

e ”搭建 简单 全 连接 分 类 器 模型 (model) 
。 ”训练 模型 


下 面 进行 详细 讲解 。 
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9.3.1 载 入 数据 集 
载 入 数据 集 还 是 和 上 面 的 代码 一 样 ， 只 是 mception V3 和 Xception 需要 把 width 改 为 299。 


import cv2 
import numpy as np 
from tqdm import tqdm 


n = 25000 
width = 224 


np.zeros((n, width, width, 3), dtype-np.uint8) 


y np.zeros((n,), dtype-np.uint8) 


for i in tqdm(range (n/2)): 


X[i] = cv2.resize(cv2.imread('train/cat.$d.jpg' % i), (width, 
width)) 
X[i+n/2] = cv2.resize(cv2.imread('train/dog.$d.jpg' $ i), (width, width) 
Y[n/2:] = 1 


9.3.2 使 用 正确 的 预 处 理 函 数 
首先 载 入 一 些 必要 的 库 : 


from keras.layers import * 
from keras.models import * 
from keras.applications import * 


from keras.optimizers import * 


接 下 来 ， 如 果 是 VGG16 / ResNet50 模型 ， 就 用 这 个 预 处 理 函 数 : 


def preprocess input (x): 


return x ~ [103:939; T1677197 123:681 
如 果 是 Inception V3 / Xception 模型 ， 就 用 这 个 预 处 理 函 数 : 
from keras.applications.inception v3 import preprocess input 
当然 也 可 以 用 这 个 : 


from keras.applications.xception import preprocess input 


9.3.3 搭建 特征 提取 模型 并 导出 特征 
enn model 的 结构 很 简单 ， 如 图 9-8 所 示 。 
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input: | (None, 299, 299,3) 
input. 2: InputLayer 
output: | (None, 299, 299,3) 


(None, 299, 299, 3) 
(None, 299, 299, 3) 














preprocessing: Lambda 














y 
2» input: | (None, 299, 299, 3) 
: Model 
kgs | output: | (None. 10. 10, 2048) 











y 
global average pooling2d 1: GlobalAveragePooling2D 





input: | (None, 10, 10, 2048) 
output: (None, 2048) 











图 9-8 特征 提取 模型 可 视 化 


先进 行 对 应 的 预 处 理 ， 然 后 是 模型 ， 最 后 一 个 GLobalAveragePooling2D 把 特征 图 转 为 特征 


向 量 。Xception 的 代码 如 下 : 


cnn model = Xception(include top-False, input shape-(width, width, 3), 


weights-'imagenet') 


inputs = Input((width, width, 3)) 
x = inputs 
X = Lambda(preprocess input, name-'preprocessing') (x) 


X = cnn model (x) 


x GlobalAveragePooling2D() (x) 


cnn model - Model(inputs, x) 


features - cnn model.predict(X, batch size-128, verbose-1) 


如 果 要 用 Inception V3 或 者 ResNet50， 只 需要 修改 成 对 应 的 模型 即 可 。 











9.3.4 搭建 并 训练 全 连接 分 类 器 模型 











有 了 特征 以 后 ， 训 练 分 类 器 就 非常 快 了 ， 可 以 说 是 
一 秒 一 代 。 分 类 器 的 结构 也 很 简单 ， 一 个 Dropout 防止 
过 拟 合 , 然后 接 一 个 全 连接 分 类 器 就 好 了 , 如 图 9-9 所 示 。 


input_6: InputLayer 






(None, 2048) 
(None, 2048) 











dropout_4: Dropout 








(None, 2048) 

















output: | (None, 2048) 
input: ,2048 
dense 4: Dense ped sene ) 
output: (None, 1) 

















图 9-9. 分 类 器 模型 可 视 化 
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代码 如 下 : 


inputs = Input(features.shape[1:]) 

x = inputs 

x = Dropout (0.5) (x) 

x = Dense(l, activation='sigmoid') (x) 

model = Model (inputs, x) 

model.compile (optimizer='adam', 
loss='binary_crossentropy', 
metrics-['accuracy']) 


h = model.fit(features, y, batch size-128, epochs-10, validation split-0.2) 


这 里 使 用 了 validation split 来 自动 切 分 20% 的 验证 集 。 
Xception 的 训练 曲线 如 图 9-10 所 示 。 




















J 
iia 一 loss 0.995 4 
—— valloss 

0.124 

0.990 4 
0.104 

0.985 4 

gom] i 

0.980 
0.06 4 

0.975 4 
0.04 4 

— acc 
0.02 0.970 1 —— val acc 
0 2 4 6 8 0 2 4 6 8 
epoch epoch 


图 9-10 Xception 训练 过 程 loss 和 acc 可 视 化 


其 他 的 模型 也 大 同 小 异 。 


9.3.5 在 测试 集 上 预测 
首先 导入 测试 集 数据 : 


n = 12500 
X test = np.zeros((n, width, width, 3), dtype=np.uint8) 


for i in tqdm(range (n)): 
X test[i] = cv2.resize(cv2.imread('test/$d.jpg' $ (i+1)), (width, width)) 


然后 计算 测试 集 特 征 : 


features test = cnn model.predict(X test, batch size-128, verbose-1) 
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利用 模型 预测 测试 集 是 猫 还 是 狗 : 

y pred = model.predict(features test, batch size-128) 
输出 到 csv 文件 中 : 

import pandas as pd 

df = pd.read csv('sample submission.csv') 


df['label'] = y pred.clip(min-0.005, max-0.995) 
df.to csv('pred.csv', index-None) 


9.4 


中 合 模 型 


我 们 对 各 个 模型 都 进行 迁移 学 习 ， 并 且 将 预测 结果 提交 到 kaggle， 结 果 如 下 : 


VGG16 0.06241 
ResNet50 0.05045 





Inception V3 0.04516 
vous 





从 上 面 的 结果 可 以 看 到 ，Xception 和 Inception V3 的 效果 是 比较 好 的 ， 因 此 可 以 先 融 合 这 两 
个 模型 。 


融合 模型 的 方法 很 简单 ， 首 先 将 特征 提取 出 来 ， 然 后 拼接 在 一 起 ， 构 建 一 个 全 连接 分 类 器 
训练 就 可 以 了 。 


模型 融合 能 够 提高 成 绩 的 理论 依据 是 ， 有 些 模型 辨认 猫 准确 率 高 ， 有 些 模型 辨认 狗 准确 率 
高 , 给 这 些 模型 不 同 的 权重 , 让 它们 能 够 取长补短 , 综合 各 自 的 优势 。 为 了 能 够 更 好 地 融合 模型 ， 
可 以 提取 特征 进行 融合 ， 这 样 会 有 更 好 的 效果 ， 弱 特征 的 权重 会 越 学 越 小 ， 强 特征 会 越 学 越 大 ， 
最 后 得 到 效果 非常 好 的 模型 。 

9.4.1 获取 特征 
为 了 方便 获取 特征 ， 可 以 写 出 这 样 的 函数 : 


def get features (MODEL, data-X): 
cnn model = MODEL (include top=False, input_shape= (width, width, 3), 


weights='imagenet') 


inputs = Input((width, width, 3)) 
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= inputs 
= Lambda (preprocess input, name-'preprocessing'!) (x) 


cnn model (x) 


Ce X % X 
I 


= GlobalAveragePooling2D() (x) 


cnn model = Model (inputs, x) 


features = cnn model.predict(data, batch size=64, verbose-1) 


return features 
这 样 就 可 以 简化 代码 ， 很 方便 地 获取 各 个 模型 对 应 的 特征 。 例 如 : 


inception features = get features(InceptionV3, X) 
Xxception features = get features(Xception, X) 
features — np.concatenate([inception features, xception features], 


axis--1) 


inception features 的 shape Æ (25000, 2048) , xception features 的 shape 也 Æ (25000, 
2048) , 那么 经 过 np.concatenate 函数 拼接 ,指定 轴 为 最 后 一 个 维度 以 后 ，shape 就 会 变 成 (25000， 
4096) ， 可 以 理解 为 这 是 两 个 预 训练 模型 对 这 些 图 片 的 理解 。 


9.4.2 数据 持久 化 
如 果 不 想 每 次 导出 特征 ， 可 以 使 用 h5py 将 特征 保存 为 hdfs 格式 的 文件 ， 以 便 下 次 使 用 : 
import h5py 


with h5py.File('features', 'w') as d: 


d['features'] = features 
读 入 也 很 简单 : 
import h5py 


with h5py.File('features', 'r') as d: 


features = np.array (d['features']) 


这 里 使 用 np.array 将 数据 转换 为 numpy 和 矩阵， 目的 是 将 数据 载 入 内 存 中 ， 这 样 训练 的 速度 
会 快 一 些 。 


9.4.3 构建 模型 
构建 模型 的 代码 和 之 前 的 全 连接 模型 代码 完全 一 样 ， 这 里 就 不 贴 了 ， 结 果 如 图 9-11 所 示 。 
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(None, 4096) 
(None, 4096) 





input 5: InputLayer 








(None, 4096) 
(None, 4096) 





dropout 1: Dropout 











input: | (None, 4096) 


dense 1: Dense 
output: (None, 1) 





图 9-11 融合 模型 可 视 化 


训练 曲线 如 图 9-12 所 示 。 




















0.08 m= 0.995 ] 
—— valloss 

0.07 

0.990 
0.06 
0.051 y 

E 总 0985 4 

0.044 
0.03 0.980 | 
0.024 — ac 

0.975 — val acc 
0.01 g 

0 2 4 6 8 0 2 4 6 8 
epoch epoch 
图 9-12 融合 模型 训练 loss 和 acc 可 视 化 


9.4.4 在 测试 集 上 预测 
在 测试 集 上 预测 的 过 程 和 上 面 单 模型 差不多 ， 只 是 输入 数据 也 需要 融合 一 下 ， 下 面 是 完 














的 代码 : 


n= 12500 
X test = np.zeros((n, width, width, 3), dtype-np.uint8) 


for i in tqdm(range (n)): 
X test[i] = cv2.resize(cv2.imread('test/$d.jpg' $ (i*1)), (width, 
width)) 


inception features - get features(InceptionV3, X test) 

xception features = get features(Xception, X test) 

features test = np.concatenate([inception features, xception features], 
axis--1) 
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import pandas as pd 


daf 
df['label'] = y pred.clip(min-0.005, max-0.995) 


= pd.read csv('sample submission.csv') 


df.to csv('pred.csv', index-None) 


.5 


总 =A 


yt 








batch_size=128) 





这 个 模型 在 kaggle 上 面 获 得 了 0.04077 的 分 数 ， 排 在 17/1314， 大 概 是 全 球 1.2% 的 水 平 。 
如 果 还 想 继续 提升 成 绩 ， 可 以 采取 下 面 几 种 方式 : 


使 用 更 好 的 预 训练 模型 导出 特征 
对 预 训练 模型 进行 微调 fine-tune) 
使 用 数据 增强 生成 更 多 数据 

对 数据 集 进行 清洗 ， 去 除 异常 值 
使 用 更 多 正则 化 方法 防止 过 拟 合 


异常 值 样 图 如 图 9-13 所 示 。 
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图 9-13 异常 图 片 抽样 可 视 化 
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看 图 识字 一 一 使 用 深度 神经 网 络 
进行 文字 识别 


本 章 将 介绍 如 何 识别 一 张 图 片 中 的 文字 。 首 先 使 用 卷 积 神经 网 络 加 多 个 全 连接 分 类 器 的 方 
法 来 识别 ， 然 后 使 用 卷 积 神经 网 络 结合 循环 神经 网 络 的 方式 来 识别 ， 不 仅 能 够 准确 识别 字符 ， 
不 需要 进行 切割 ， 还 能 够 根据 上 下 文 以 及 语法 规则 猜测 字符 。 


10.1 使 用 卷 积 神经 网 络 进行 端 到 端 学 习 


本 节 通 过 Keras 搭建 一 个 深度 卷 积 神经 网 络 来 识别 captcha 验证 码 。 由 于 深度 卷 积 神经 网 络 
训练 需要 很 大 的 计算 量 ， 因 此 建议 使 用 显卡 来 运行 本 项 目 。 
首先 介绍 本 节 需 要 用 到 的 一 个 验证 码 生 成 库 一 一 captcha。 
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captcha 











captcha 是 一 个 生成 验证 码 的 Python 库 ， 它 支持 图 片 验证 码 和 语音 验证 码 ， 我 们 使 月 





是 它 生 成 图 片 验证 码 的 功能 。 该 项 目的 地 址 是 : https://github.com/lepture/captcha。 
安装 方法 如 下 : 


pip install captcha 


我 们 的 实验 环境 ( 见 本 书 1.4 35) 中 已 经 集成 了 captcha 0.2.2 ， 这 里 无 须 安装 。 


z 








我 们 设置 的 验证 码 格式 为 数字 加 大 写字 母 ， 生 成 一 串 验证 码 试 试看 : 


from captcha. image import ImageCaptcha 
import matplotlib.pyplot as plt 
import numpy as np 

import random 


Smatplotlib inline 
Sconfig InlineBackend.figure format = 'retina' 


import string 
characters = string.digits + string.ascii uppercase 
print (characters) 


width, height, n len, n class - 170, 80, 4, len(characters) 


generator - ImageCaptcha (width-width, height-height) 
random str - ''.join([random.choice(characters) for j in range(4)] 


img = generator.generate image (random str) 


plt.imshow (img) 
plt.title(random str) 


其 结果 如 图 10-1 所 示 。 





去 


T T 
40 60 80 100 120 140 160 





E 
P 


图 10-1 captcha 生成 的 图 片 
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10.1.1 编写 数据 生成 器 


如 第 6 章 内 容 强调 的 一 样 ， 在 训练 模型 的 过 程 中 ， 可 以 选择 两 种 方式 来 生成 训练 数据 : 
一 种 是 一 次 性 生成 几 万 张 图 ， 然 后 开始 训练 ， 另 一 种 是 定义 一 个 数据 生成 器 ， 然 后 利用 ft _ 
generator 函数 进行 训练 ， 以 类 似 愚公移山 的 方式 处 理 海量 输入 训练 数据 。 

第 一 种 方式 的 好 处 是 训练 时 显卡 利用 率 高 ， 如 果 需 要 经 常 调 参 ， 可 以 一 次 生成 ， 然 后 多 次 
训练 ， 第 二 种 方式 的 好 处 是 不 需要 生成 大 量 数据 ， 训 练 过 程 中 可 以 利用 CPU 生成 数据 ， 而 且 还 
有 一 个 好 处 是 可 以 无 限 生成 数据 ， 提 高 模型 的 泛 化 能 力 。 

我 们 需要 生成 的 数据 是 X 和 y，X 是 一 批 图 片 ，y 是 对 应 的 数据 标签 ， 也 就 是 希望 模型 识 
别 的 结果 。 


1. AK4 X 
X 的 形状 是 〈batch size, height, width, 3) ， 例 如 一 批 生 成 32 个 样本 ， 图 片 宽度 为 170， 高 
度 为 80， 那 么 形状 就 是 (32, 80, 170,3) ， 取 第 一 张 图 就 是 X[0] 。 


2. 标签 矩阵 y 

y 的 形状 是 4 个 (batch_size, n class) ， 如 果 转 换 成 numpy 的 格式 ， 则 是 (n len, batch_ 
size, n class) ， 例 如 一 批 生 成 32 个 样本 ， 验 证 码 的 字符 有 36 种， 长度 是 4 位， 那么 它 的 形状 
就 是 4 个 (32,36) ， 也 可 以 说 是 (4, 32.36) o 


def gen(batch size-32): 
X = np.zeros((batch size, height, width, 3), dtype-np.uint8) 
y = [np.zeros((batch size, n class), dtype-np.uint8) for i in 
range (n len)] 
generator = ImageCaptcha (width-width, height-height) 
while True: 
for i in range(batch size): 
random str - ''.join([random.choice(characters) for j in 
range (4)]) 
X[i] = generator.generate image (random str) 
for j, ch in enumerate (random str): 
te je UE LEO 
y[j][i, characters.find(ch)] = 1 
yield X, y 


上 面 就 是 一 个 可 以 无 限 生成 数据 的 例子 ， 下 面 将 使 用 这 个 生成 器 来 训练 模型 。 


10.1.2 使 用 生成 器 


生成 器 的 使 用 方法 很 简单 ， 只 需要 使 用 Python 内 置 的 next 函数 即 可 。 下 面 是 一 个 例子 ， 一 
批 生成 32 个 数据 ， 然 后 显示 第 一 个 数据 的 图 片 。 由 于 label 使 用 了 One-Hot 编码 ， 所 以 还 需要 
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对 label 进行 解码 ， 首 先 将 它 转 为 numpy 数组 ， 然 后 取 36 个 数字 中 最 大 数字 的 位 置 ， 实 际 上 这 
些 数字 就 是 对 应 字符 的 概率 ， 因 此 取 最 大 的 就 行 ， 最 后 将 概率 最 大 的 4 个 字符 转换 为 字符 串 。 


def decode (y, index-0): 
y = np.argmax(np.array(y), axis-2)[:, index] 


return ''.join([characters[x] for x in yl) 


X, y = next (gen (1)) 
plt.imshow(X[0]) 
plt.title (decode (y)) 


10.1.3 构建 深度 卷 积 神经 网 络 


from keras.models import * 


from keras.layers import * 


input tensor = Input((height, width, 3)) 
X = input tensor 


for i in range(4): 


Convolution2D(32*2**i, 3, activation-'relu') (x) 


Convolution2D(32*2**i, 3, activation-'relu') (x) 


Es 
x 
x — MaxPooling2D(2) (x) 


x = Flatten() (x) 

x = Dropout (0.25) (x) 

x = [Dense(n class, activation-'softmax', name='c%d'$% (i+1)) (x) for i in 
range (4)] 

model = Model(inputs-input tensor, outputs-x) 


model.compile(loss-'categorical crossentropy', 
optimizer-'adadelta', 


metrics-['accuracy']) 


模型 结构 很 简单 ， 特 征 提取 部 分 使 用 的 是 两 个 卷 积 ， 一 个 池 化 的 结构 ， 该 结构 是 学 习 的 
VGG16 的 结构 。 之 后 将 输出 的 特征 Flatten 为 一 维 向 量 , 然后 添加 Dropout, 尽量 避免 过 拟 合 问题 ， 
最 后 连接 4 个 分 类 器 ， 每 个 分 类 器 是 36 个 神经 元 ， 输 出 36 个 字符 的 概率 。 


10.1.4 模型 可 视 化 
得 益 于 Keras 自 带 的 可 视 化 ， 可 以 使 用 几 句 代码 来 可 视 化 模型 的 结构 〈 见 图 10-2) o 
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input: | (Nene, 80, 170, 3) 
output: | (None, 80, 170, 3) 





input, 1: InputLayer 

















input: | (None, 80, 170, 3) 


conv2d 1: Conv2D 
= output: | (None, 78, 168, 32) 











input: | (None, 78, 168, 32) 


Conv2D 
output: | (None, 76, 166, 32) 





conv2d : 























input: [ (Nene, 76, 166, 32) 
output: | (None, 38, 83, 32) 




















x 
input: | (None, 38, 83, 32) 


c 
conv2d 3; Conv2D | (None, 36, 81, 64) 








input: | (None, 36, 81, 64) 
output: | (None, 34, 79, 64) 





conv2d 4: Conv2D 

















- 





input: | (None, 34, 79, 64) 


lingZd 2: MaxPoolingZD 
PO POO MaxPootng® | output: | None, 17, 39, 64) 














input: | (Nene, 17, 39, 64) 


2d 
nid output: | (None, 15, 37, 128) 





Conv2D 











input: | (None, 15, 37, 128) 


conv2d 6: Conv2D 
output: | (None, 13, 35, 128) 























input: | (Nene, 13, 35, 128) 


| output: | (None, 6, 17, 128) 


max. pooling2d 3: MaxPooling2D 








input: [ (None, 6, 17, 128) 


conv2d 7: Conv2D 
ai output: | (None, 4, 15, 256) 








input: | (None, 4, 15, 256) 
output: | (None, 2, 13, 256) 





conv2d 8: Conv2D 




















input: | (None, 2, 13, 256) | 


max pooling2d 4: MaxPooling2D. 
output: | (None, 1, 6, 256) | 




















* 
input: | (None, 1, 6, 256) 
output | (None, 1536) 


(None, 1536) 
| output: | (None, 1536) 


input. | (None, 1536) 
output: | (None, 36) 


flatten 1: Flatten 




















dropout. 1: Dropout 
























input: | (None, 1536) 
output: | (None, 36) 










(None, 1536) 
output: | (None, 36) 


input: | (None, 1536) 
output: | (None, 36) 











cl: Dense c2: Dense 












































10-2 多 输出 卷 积 神经 网 络 模型 可 视 化 


from keras.utils.visualize util import plot 


from IPython.display import Image 


plot(model, to file-"model.png", show shapes-True) 
Image ('model.png') 
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这 里 需要 使 用 pydot 库 和 graphviz 库 ， 在 第 1 章 介绍 的 基于 NVIDIA Docker 搭建 的 环境 中 
已 经 安装 完毕 ， 可 以 直接 使 用 。 
我 们 可 以 看 到 最 后 一 层 卷 积 层 输出 的 形状 是 (1, 6,256) ， 已 经 不 能 再 加 卷 积 层 了 。 


10.1.5 训练 模型 


训练 模型 是 所 有 步骤 里 面 最 简单 的 一 个 ， 直 接 使 用 model.fit generator 函数 即 可 ， 这 里 的 
验证 集 使 用 了 同样 的 生成 器 ， 由 于 数据 是 通过 生成 器 随机 生成 的 ， 因 此 数据 重复 的 概率 接近 于 
0。 注 意 ， 这 段 代 码 在 笔记 本 上 可 能 要 耗费 一 下 午时 间 。 如 果 你 想 让 模型 预测 得 更 准确 ， 可 以 将 
epochs 改 得 更 大 ， 但 它 也 将 耗费 成 倍 的 时 间 。 注 意 ， 这 里 使 用 了 一 个 小 技巧 ， 添 加 workers =2 
参数 让 Keras 自动 实现 多 进程 生成 数据 ， 摆 脱 Python 单线 程 效率 低 的 缺点 。 

模型 训练 每 代 会 使 用 128*400=51200 个 样本 ， 验 证 的 时 候 会 使 用 128*10=1280 个 样本 。 


h = model.fit generator(gen(128), steps per epoch-400, epochs-20, 
workers-4, pickle safe-True, 


validation data-gen(128), validation steps-10) 
训练 20 代 以 后 ， 可 以 画 出 训练 过 程 的 loss 和 acc 曲线 图 CLER 10-3) : 


Plt.figure (figsize=(10, 4)) 
plt.subplot(1, 2, 1) 

plt.plot (h.history['loss']) 
plt.plot(h.history['val loss']) 
plt.legend(['loss', 'val loss']) 
plt.ylabel('1loss') 
plt.xlabel('epoch') 

plt.ylim(0, 1) 


plt.subplot(1, 2, 2) 
for i in range(4): 
plt.plot(h.history['val c$d acc' $ (i*1)]) 


plt.legend(['val c$d acc' $ (i*1) for i in range(4)]) 
plt.ylabel('acc') 

plt.xlabel('epoch') 

plt.ylim(0.9, 1) 


注意 ， 这 里 使 用 plt.ylim 限制 了 y 的 范围 ， 不 然 范围 会 很 大 ， 无 法 看 出 具体 趋势 。 
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10 1.00 
— loss 
—— val loss 
08 0.98 
0.6 0.96 
04 0.94 
—— val c1 acc 
02 0.92 —— val c2 acc 
—— val c3 acc 
—— val c4 acc 
00 T T T T 0.90 T T T 
0 5 10 15 o 5 10 15 
epoch epoch 


10-3 多 输出 卷 积 神经 网 络 模型 loss 可 视 化 以 及 每 个 分 类 器 的 acc 可 视 化 


10.1.6 计算 模型 总 体 准 确 率 


模型 在 训练 的 时 候 只 会 显示 每 一 个 字符 的 准确 率 ， 为 了 统计 模型 的 总 体 准 确 率 ， 可 以 编写 
下 面 的 函数 : 














from tqdm import tqdm 
def evaluate(batch size-128, steps-20): 
batch acc - 0 
generator - gen(batch size) 
for i in tqdm (range (steps) ): 
X, y = next (generator) 
y_pred = model.predict (X) 
y pred = np.argmax(y pred, axis=-1) 
y true - np.argmax(y, axis--1) 
batch acc *- np.equal(y true, y pred).all(axis-0).mean() 


return batch acc / steps 


evaluate (model) 


这 里 用 到 了 一 个 tqdm 库 ， 它 是 一 个 进度 条 的 库 ， 目 的 是 能 够 实时 反馈 进度 。 接 下 来 ， 通 过 
一 些 numpy 计算 去 统计 准确 率 ， 这 里 计算 规则 是 只 要 发 现 一 个 错 ， 就 不 算 它 对 。 经 过 计算 ， 模 
型 的 总 体 准 确 率 经 过 20 代 训 练 就 可 以 达到 97.8%， 继 续 训练 还 可 以 达到 更 高 的 准确 率 。 
10.1.7 测试 模型 

训练 完成 之 后 ， 可 以 识别 几 个 验证 码 试 试看 ( 见 图 10-4) : 

X, y = next(gen(12)) 


y pred = model.predict (X) 
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plt.figure (figsize=(16, 8)) 

for i in range(12): 
plt.subplot (3, 4, i+1) 
plt.title('real: %s\npred:%s'%(decode(y, i), decode(y pred, i))) 
plt.imshow(X[i]) 












































real: QM56 real: BIUZ real: PINO real: 803 
pred:QM56 pred:B1UZ pred:PINO pred:8Y03 
o s o z~ - oT - 0 7 X 
204 3 > 20 tom 1 PIRE 
60 6o 60 z 
n . ^ xm 
o 50 100 150 o 50 100 150 o 50 100 150 
real: MZ7K real: N8U9 real: 6TSV real: OD6J 
pred:MZ7K pred:N8U9 pred:6TSV pred:OD6J 
o [n 7 o o Ur 2$ 
i p. 4 z e o| 4 R | 
60 60 E "oe 
———' ——— ———— Pal 
o 50 100 150 o 50 100 150 o so 100 150 
real: 5DRK real: 2UKE real: AZFP. real: Y899 
pred:5DRK pred:2UKE pred:AZFP pred;Y899 
o x o T 3? - - o 7 
20 20 20 E v. 20 p 
: * . 
4o E EI 40 
6o 6o d 6o - o] + - 
+ 一 - - - 上 一 
o 50 100 150 o 50 100 o 50 100 150 o 50 100 150 





图 10-4 模型 输出 结果 可 视 化 


10.1.8 模型 总 结 


模型 的 大 小 是 16MB， 在 笔者 的 笔记 本 上 跑 1000 张 验证 码 需要 用 20 秒 ， 当 然 有 显卡 的 
话 会 更 快 。 对 于 验证 码 识别 的 问题 来 说 ， 哪 怕 是 10% 的 准确 率 也 已 经 称 得 上 和 破解， 毕竟 假设 
100% 识别 率 破解 要 一 个 小 时 ， 那 么 10% 的 识别 率 也 只 用 十 个 小 时 ， 还 算 等 得 起 ， 而 识别 率 达 
到 97%, 已经 可 以 称 得 上 完全 破解 了 这 类 验证 码 。 模 型 大 小 完全 不 可 能 存 下 这 么 多 的 验证 码 图 片 ， 
说 明 它 是 真 的 需要 去 辨认 这 些 验 证 码 ， 而 不 只 是 按 像素 去 比 对 。 





10.2 使 用 循环 神经 网 络 改 进 模型 


对 于 这 种 按照 顺序 书写 的 文字 ， 还 有 一 种 方法 可 以 使 用 ， 那 就 是 循环 神经 网 络 来 识别 序列 。 下 
面 了 解 一 下 如 何 使 用 循环 神经 网 络 来 识别 这 类 验证 码 。 这 部 分 的 代码 和 上 面 一 样 ， 只 是 将 n_class 
改 为 len (characters)+1， 因 为 需要 添加 一 个 空白 类 用 于 CTC Loss. 

















from captcha.image import ImageCaptcha 
import matplotlib.pyplot as plt 


import numpy as np 
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import random 


$matplotlib inline 


$config InlineBackend.figure format = 'retina' 


import string 
Characters = string.digits + string.ascii uppercase 


print (characters) 
width, height, n len, n class = 170, 80, 4, len(characters)*1 


generator - ImageCaptcha (width-width, height-height) 
random str - ''.join([random.choice(characters) for j in range(4)]) 


img = generator.generate image (random str) 


plt.imshow (img) 
plt.title (random str) 


10.2.1 CTC Loss 


这 个 loss 是 一 个 特别 神奇 的 loss， 它 可 以 在 只 知道 序列 的 顺序 、 不 知道 具体 位 置 的 情况 下 
让 模型 收敛 (warp-ctc) ， 如 图 10-5 所 示 。 


P(THE—CAT—) 


P(T..H. EE | -.C 


图 10-5. 不 同 顺序 的 序列 对 应 同一 个 label 示意 图 























在 Keras 中 ，CTC Loss 已 经 内 置 了 ， 直 接 定义 这 样 一 个 函数 即 可 。 由 于 使 用 的 是 循环 神经 
网 络 ， 因 此 默认 丢掉 前 面 两 个 输出 ， 它 们 通常 无 意义 ， 并 且 会 影响 模型 的 输出 。 
e y pred 是 模型 的 输出 ， 是 按照 顺序 输出 的 37 个 字符 的 概率 ， 因 为 这 里 用 到 了 循环 神经 
网 络 ， 所 以 需要 一 个 空白 字符 的 类 。 
* labels 是 验证 码 ， 是 四 个 数字 ， 每 个 数字 对 应 字符 的 编号 。 
e input length 表示 y_pred 的 长 度 ， 这 里 是 15。 
e label length 表示 labels 的 长 度 ， 这 里 是 4。 


from keras import backend as K 


def ctc lambda func (args): 
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y pred, labels, input length, label length = args 
y pred = y pred[:, 2:, :] 
return K.ctc batch cost(labels, y pred, input length, label length) 


10.2.2 模型 结构 


我 们 的 模型 结构 是 这 样 设计 的 ， 首 先 通过 卷 积 神经 网 络 去 识别 特征 ， 然 后 经 过 一 个 全 连接 
降 维 ， 再 按照 水 平顺 序 输入 到 一 种 特殊 的 循环 神经 网 络 ， 叫 GRU (Gated Recurrent Unit) ， 可 
以 理解 为 是 LSTM 的 简化 版 。LSTM 早 在 1997 年 就 已 经 被 发 明 出 来 了 ， 但 是 GRU 直到 2014 年 
才 出 现 。 经 过 实验 ，GRU 效果 比 LSTM 要 好 。 

参考 链接 : https://zhuanlan.zhihu.com/p/28297161 


from keras.models import * 
from keras.layers import * 
from keras.optimizers import * 


rnn size = 128 


input tensor = Input((width, height, 3)) 
X = input tensor 
X = Lambda (lambda x: (x-127.5)/127.5) (x) 
for i in range(3): 

for j in range(2): 


x = Convolution2D(32*2**i, 3, kernel initializer-'he uniform') (x) 


x BatchNormalization() (x) 
X = Activation ('relu') (x) 


x = MaxPooling2D((2, 2)) (x) 


conv shape = x.get shape().as list() 
rnn length = conv shape[l1] 

rnn dimen - conv shape[2]*conv shape[3] 
print(conv shape, rnn length, rnn dimen) 


x = Reshape(target shape-(rnn length, rnn dimen)) (x) 


rnn length -- 2 

x = Dense(rnn size, kernel initializer-'he uniform') (x) 
X = BatchNormalization() (x) 

X = Activation('relu') (x) 

x = Dropout (0.2) (x) 


gru 1 = GRU(rnn size, return sequences-True, 

kernel initializer-'he uniform', name-'grul') (x) 
gru lb = GRU(rnn size, return sequences-True, 

kernel initializer-'he uniform', 


go backwards-True, name-'grul b')(x) 
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x = add([gru 1, gru 1b]) 
gru 2 = GRU(rnn size, return sequences-True, 

kernel initializer-'he uniform', name-'gru2') (x) 
gru 2b = GRU(rnn size, return sequences-True, 

kernel initializer-'he uniform', 


go backwards-True, name-'gru2 b')(x) 


X — concatenate([gru 2, gru 2b]) 
x = Dropout (0.2) (x) 
x = Dense(n class, activation-'softmax') (x) 


base model = Model(inputs-input tensor, outputs-x) 
labels - Input(name-'the labels', shape-[n len], dtype-'float32') 
input length = Input(name-'input length', shape-[1], dtype-'int64') 
label length = Input(name-'label length', shape-[1], dtype-'int64') 
loss out - Lambda(ctc lambda func, 

output shape-(1,), 

name-'ctc' 

)(Ix, labels, input length, label length]) 


model = Model(inputs-[input tensor, labels, input length, label length], 
outputs-[loss out]) 
model.compile( 
loss-('ctc': lambda y true, y pred: y pred], 
optimizer-'adam' 


) 


从 Input 到 最 后 一 个 MaxPooling2D， 是 一 个 很 深 的 卷 积 神经 网 络 ， 它 负责 学 习 字 符 的 各 个 
特征 ， 尽 可 能 区 分 不 同 的 字符 。 它 输出 shape 是 [None, 17, 6, 128]， 这 个 形状 相当 于 把 一 张 宽 为 
170、 高 为 80 的 彩色 图 像 (170, 80,3) 压缩 为 宽 为 17、 高 为 6 的 128 维特 征 的 特征 图 C17, 6, 
128) 。 然 后 我 们 把 图 像 reshape X (17,768) ， 也 就 是 把 高 和 特征 放 在 一 个 维度 ， 再 降 维 成 (17， 
128) ， 也 就 是 从 左 到 右 有 17 条 特征 ， 每 个 特征 128 个 维度 。 

这 128 个 维度 就 是 一 条 图 像 的 非常 高 维 、 非 常 抽象 的 概括 ， 然 后 将 17 个 特征 向 量 依次 输入 
到 GRU 中 ，GRU 有 能 力学 会 不 同 特征 向 量 的 组 合 会 代表 什么 字符 ， 即 使 是 字符 之 间 有 粘连 也 
不 害怕 。 这 里 使 用 了 双向 GRU, 最 后 Dropout 接 一 个 全 连接 层 , 作为 分 类 器 输出 每 个 字符 的 概率 。 

这 个 是 base_ model 的 结构 ， 也 是 我 们 模型 的 结构 ， 那 么 后 面 的 labels. input length, label_ 
length 和 loss out 都 是 为 了 输入 必要 的 数据 来 计算 CTC Loss 的 。 


10.2.3 模型 可 视 化 
可 视 化 的 代码 同上 ， 这 里 只 贴图 ( 见 图 10-6) 。 
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图 10-6 CNN+GRU+CTC LOSS 模型 可 视 化 











第 10 章 看 图 识字 一 一 使 用 深度 神经 网 络 进行 文字 识别 








可 以 看 到 模型 比 上 一 个 模型 复杂 了 许多 ， 但 实际 上 只 是 因为 输入 比较 多 ， 所 以 它 显 得 很 
大 。 还 有 一 个 值得 注意 的 地 方 ， 我 们 的 图 片 在 输入 时 是 经 过 了 旋转 的 ， 这 是 因为 希望 以 水 平方 
向 输入 循环 神经 网 络 ， 而 图 片 在 numpy 中 默认 是 这 样 的 形状 Cheight, width, 3) ， 因 此 使 用 了 
transpose 函数 将 图 片 转 为 了 (width, height, 3) 的 格式 ， 这 样 就 能 够 把 X 轴 转 到 第 一 个 维度 ， 方 
便 输入 到 循环 神经 网 络 。 


10.2.4 数据 生成 器 
根据 模型 的 输入 ， 需 要 输入 4 个 数据 : 


和 是 一 批 图 片 。 

y 是 每 个 图 片 对 应 的 label， 最 大 长 度 为 n_ len。 
input length 表示 模型 输出 的 长 度 ， 这 里 是 15。 
label length 表示 labels 的 长 度 ， 这 里 是 4。 


最 后 还 有 一 个 输入 是 np.ones(batch_size)， 这 是 因为 Keras 在 训练 模型 的 时 候 必 须 输入 一 个 
X 和 一 个 y， 这 里 把 上 面 4 个 都 合并 为 一 个 X 了 ， 因 此 实际 上 y 没有 参与 loss 的 计算 ， 所 以 随 
便 编 一 个 batch size 长 度 的 数据 输入 进去 就 好 了 。 


def gen(batch size-128): 


X = np.zeros((batch size, width, height, 3), dtype-np.uint8) 
y = np.zeros((batch size, n len), dtype-np.uint8) 
generator = ImageCaptcha (width-width, height-height) 
while True: 
for i in range (batch size): 
random str = ''.join([random.choice (characters) 
for j in range(n len)]) 
X[i] = np.array( 
generator.generate image (random str) 
).transpose(1, 0, 2) 
y[i] = [characters.find(x) for x in random str] 
yield [X, y, np.ones(batch size)*rnn length, 
np.ones(batch size)*n len], np.ones(batch size) 


可 以 举 个 例子 ， 使 用 一 次 生成 器 ， 查 看 输出 的 是 什么 内 容 〈 见 图 10-7) : 


(X vis, y. vis, input length vis, label length vis), _ = next (gen(1)) 


print(X vis.shape, y vis, input length vis, label length vis) 


plt.imshow(X vis[0].transpose(1, 0, 2)) 


plt.title(''.join([characters[i] for i in y vis[0]])) 


可 以 看 到 输出 了 下 面 的 内 容 : 


| 
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图 10-7 生成 器 输出 的 图 像 


这 里 : 


e Xfjshape 是 (1,170, 80,3) ， 如 果 有 n 张 图 ，shape 就 是 (n, 170, 80,3) 。 


e y label, 可 以 看 到 生成 的 图 片 是 T4LL， 那 么 按照 上 面 的 characters, label 就 是 [29 4 


21 21]， 外 面 还 有 一 个 框 是 因为 这 里 可 以 有 nn 个 label. 
* input length 表示 模型 输出 的 长 度 ， 这 里 是 15。 
* label length 表示 labels 的 长 度 ， 这 里 是 4。 


10.2.5 评估 模型 


接 下 来 ， 通 过 这 个 函数 来 评估 我 们 的 模型 ， 和 上 面 的 评估 标准 一 样 ， 只 有 全 部 了 








E 确 ， 才 算 预 


测 正确 。 这 里 有 个 坑 ， 就 是 模型 最 开始 训练 的 时 候 ， 并 不 一 定 会 输出 4 个 字符 ， 所 以 如 果 遇 到 所 
有 的 字符 都 不 到 4 个 的 时 候 ， 就 不 用 计算 了 ,一 定 是 全 错 。 遇 到 多 于 4 个 字符 的 时 候 ， 只 取 前 4 个 。 














def evaluate(batch size-128, steps-10): 
batch acc - 0 
generator - gen(batch size) 
for i in range(steps): 


[X test, y test, , ], _ = next (generator) 


y pred = base model.predict(X test) 
shape = y pred[:,2:,:].shape 
ctc decode - K.ctc decode(y pred[:,2:,:], 


input length-np.ones (shape[0]) *shape[1] 


) [01 [0] 
out = K.get value(ctc decode) [:, :n len] 
if out.shape[1] -- n len: 


batch acc += (y test — out).all(axis-1).mean() 


return batch acc / steps 


168 








第 10 章 看 图 识字 一 一 使 用 深度 神经 网 络 进行 文字 识别 








10.2.6 评估 回调 


因为 Keras 没有 针对 CTC 模型 计算 准确 率 的 选项 ， 因 此 需要 自 定义 一 个 回调 函数 ， 它 会 在 
每 一 代 训 练 完成 的 时 候 计算 模型 的 准确 率 。 





from keras.callbacks import * 


class Evaluator (Callback): 
def _ init (self): 


self.accs - [] 


def on epoch end(self, epoch, logs-None): 
acc = evaluate (steps-20)*100 
self.accs.append (acc) 
printi(o5ty 
print('acc: $f$$' $ acc) 


evaluator - Evaluator() 


10.2.7 训练 模型 


先 按照 Adam(le-3) 的 学 习 率 训练 20 代 ， 让 模型 快速 收敛 ， 然 后 以 Adam(le-4) 的 学 习 率 再 
训练 20 代 。 这 里 设置 每 代 训练 400 个 step， 也 就 是 每 代 400*128=51200 个 样本 ， 验 证 集 设置 的 
是 20*128=2048 个 样本 。 


h = model.fit generator (gen (128), 
steps_per epoch=400, 
epochs=20, 
callbacks-[evaluator], 
validation data-gen(128), 

validation steps-20 

) 

model.compile( 

loss-('ctc': lambda y true, y pred: y pred], 
optimizer-Adam(1e-4) 

) 


h2 = model.fit generator (gen(128), 
steps per epoch-400, 
epochs-20, 
callbacks-[evaluator], 
validation data-gen (128), 


validation steps-20 


169 


深度 学 习 技 术 图 像 处 理 入 门 


接 下 来 ， 将 loss 和 acc 的 曲线 图 画 出 来 〈 见 图 10-8) : 


plt.figure(figsize-(10, 4)) 

plt.subplot(1, 2, 1) 

plt.plot(h.history['loss'] + h2.history['loss']) 
plt.plot(h.history['val loss'] + h2.history['val loss']) 
plt.legend(['loss', 'val loss']) 

plt.ylabel('1loss') 

plt.xlabel('epoch') 

plt.ylim(0, 1) 


plt.subplot(1, 2, 2) 
plt.plot (evaluator.accs) 
plt.ylabel('acc') 
plt.xlabel('epoch') 
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10-8 CNN--GRU--CTC 模型 训练 过 程 的 loss 和 acc 可 视 化 


训练 到 20 代 的 时 候 ， 模 型 表现 如 下 : 


Epoch 20/20 








399/400 [- usu c loss:2021595 
acc: 97.929688$ 
400/400 [= = Loss: 0.1589 — val 


loss: 0.1671 


训练 到 40 代 的 时 候 ， 模 型 表现 如 下 : 


Epoch 20/20 








399/400 [= De = 19855: 0.1317 
acc: 99.570312% 
400/400 [= = loss: 0-1315 = yal 


loss: 0.1130 
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10.2.8 测试 模型 
测试 模型 的 代码 如 下 : 


(X vis, y vis, input length vis, label length vis), _ = next(gen(12)) 

y pred - base model.predict(X vis) 

shape - y pred[:,2:,:].shape 

ctc decode = K.ctc decode(y pred[:,2:,:], input length-np.ones (shape[0]) * 
shape[1]) [0] [0] 

out — 


K.get value(ctc decode)[:, :4] 


plt.figure (figsize-(16, 8)) 
for i in range(12): 
plt.subplot(3, 4, i*1) 
plt.imshow(X vis[i].transpose(1, 0, 2)) 
plt.title('pred:$sWMnreal :$s' $ ( 
'"'.join([characters[x] for x in out[i]]), 
''.join([characters[x] for x in y vis[il])) 


) 
其 结果 如 图 10-9 所 示 。 
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图 10-9 模型 预测 结果 可 视 化 


10.2.9 再 次 评估 模型 


我 们 可 以 尝试 计算 模型 的 总 体 准 确 率 ， 以 及 查看 模型 到 底 错 在 哪儿 。 首 先生 成 1024 个 样本 ， 
] base model 进行 预测 , 然后 裁剪 并 进行 ctc 解码 , 最 后 裁剪 到 4 个 label 并 与 真实 值 进行 对 比 。 
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(X vis, y vis, input length vis, label length vis), . = next (gen (10000) ) 


y pred = base model.predict(X vis, verbose-1) 

shape = y pred[:,2:,:].shape 

ctc decode = K.ctc decode(y pred[:,2:,:], input length-np. 
ones (shape [0]) *shape[1]) [0] [0] 

out = K.get value(ctc decode)[:, :4] 


(y vis == out).all(axis-1).mean() 
运行 结果 : 
# 0.99460000000000004 
输出 结果 是 99.46% 的 准确 率 ， 已 经 比 上 一 个 模型 强 很 多 了 。 
对 预测 错 的 样本 进行 统计 : 
from collections import Counter 
Counter(''.join([characters[i] for i in y vis[y vis !- out]])) 
Gounter(['0*: 37, "Ot: 14, 10t: qu IF's Wy Ws LY) 
可 以 发 现 模型 在 0 和 O 的 准确 率 稍微 低 一 点 ， 其 他 的 错误 都 只 是 个 例 。0 与 O 确实 是 很 难 
分 辨 的 ， 可 以 尝试 用 代码 生成 一 个 “'0000'” 的 图 像 ， 然 后 用 模型 进行 预测 : 


characters2 = characters + ' ' 


generator - ImageCaptcha (width-width, height-height) 
random str = '0000' 

X test = np.array(generator.generate image (random str)) 
X test = X test.transpose(1, 0, 2) 

X test = np.expand dims(X test, 0) 


y pred = base model.predict(X test) 
shape = y pred[:,2:,:].shape 
ctc decode - K.ctc decode(y pred[: 





SE 

input length-np.ones (shape[0]) *shape[1] 
) [01 [0] 
K.get value(ctc decode)[:, :4] 


out 


out = ''.join([characters[x] for x in out[0]]) 


plt.imshow(X test[0].transpose(1, 0, 2)) 
plt.title('pred:' + str(out)) 


argmax — np.argmax(y pred, axis-2)[0] 


list(zip(argmax, ''.join([characters2[x] for x in argmax]))) 


其 结果 如 图 10-10 所 示 。 
可 以 看 到 模型 预测 得 还 是 很 准 的 。 
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Out[22]: [(36, ' '), 








10-10 0000 预测 结果 可 视 化 


10.2.10 总 结 


模型 的 大 小 是 3.3MB， 在 显卡 上 运行 10000 张 验证 码 需要 用 9 秒 ， 平 均一 秒 识 别 1000 张 以 
上 ， 完 全 可 以 拼 过 网 速 。 即 使 是 在 笔记 本 上 运行 ， 也 可 以 运行 到 一 秒 几 十 张 的 速度 ， 因 此 此 类 
验证 码 可 以 说 已 经 被 破解 了 。 


10.3 识别 四 则 混合 运算 验证 码 (初赛) 


在 写 完 上 面 的 内 容 之 后 不 久 ， 百 度 云 和 魅族 联合 办 了 一 个 深度 学 习 的 比赛 ， 识 别 如 图 10-11 
所 示 的 四 则 混合 运算 的 表达 式 。 这 个 图 片 和 之 前 做 得 很 像 ， 比 赛 结果 是 笔者 被 第 一 名 在 比赛 
最 后 一 小 时 超 了 3 个 样本 ， 拿 到 第 二 名 。) 


$542. - 


图 10-11 初赛 样本 之 一 





本 节 将 详细 介绍 在 进行 四 则 混合 运算 识别 竞赛 初赛 时 的 所 有 思路 。 核 心思 想 在 本 章 前 两 节 
内 容 中 已 经 有 所 介绍 ， 所 以 本 节 会 省 略 部 分 重复 内 容 。 
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10.3.1 问题 描述 
本 次 竞赛 的 目的 是 解决 一 个 OCR 问题 ， 通 俗 地 讲 就 是 实现 图 像 到 文字 的 转换 过 程 。 


1. 数据 集 


初赛 数据 集 一 共 包 含 10 万 张 180*60 的 图 片 和 一 个 labels.txt 的 文本 文件 。 每 张 图 片 包含 一 
个 数学 运算 式 ， 运 算式 包含 : 3 个 运算 数 (3 个 0-9 的 整 型 数字 ) ，2 个 运算 符 (可 以 是 +、-、*， 
分 别 代表 加 法 、 减 法 、 乘 法 ) ，0 或 1 对 括号 〈 括 号 可 能 是 0 对 或 者 1 对 ) 。 

图 片 的 名 称 从 0.png 到 99999.png， 下 面 取出 一 张 ( 见 图 10-11) 样 例 图 片 。 文 本 文件 labels.txt 
包含 10W 行文 本 ， 每 行文 本 包含 每 张 图片 对 应 的 公式 以 及 公式 的 计算 结果 ， 公 式 和 计算 结果 之 
间 用 空格 分 开 ， 例 如 图 10-11 对 应 的 文本 如 下 所 示 : 


5-642 1 


2. 评价 指标 

官方 的 评价 指标 是 准确 率 ， 初 赛 只 有 整数 的 加 、 减 、 乘 运算 ， 所 得 的 结果 一 定 是 整数 ， 所 
以 要 求 序列 与 运算 结果 都 正确 才 会 判定 为 正确 。 

我 们 本 地 除了 会 使 用 官方 的 准确 率 作为 评估 标准 以 外 ， 还 会 使 用 CTC Loss 来 评估 模型 。 


10.3.2 数据 集 探索 


根据 题目 要 求 ，label 必定 是 三 个 数字 、 两 个 运算 符 、 一 对 或 没有 括号 ， 根 据 括号 规则 ， 只 
有 可 能 是 没 括号 、 左 括号 和 右 括号 ， 因 此 很 容易 就 可 以 写 出 数据 生成 器 的 代码 。 
生成 器 的 生成 规则 很 简单 : 


import string 


import random 


digits = string.digits 
operators = '4-*' 


characters = digits + operators + '() ' 


def generate(): 
seq UM 


k = random.randint(0, 2) 


if k = 1: 

seq += '(' 
seq += random.choice (digits) 
seq += random.choice (operators) 
if k == 2: 


seg ta tt 
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seq += random.choice (digits) 
EE 

seq += ')' 
seq += random.choice (operators) 
seq += random.choice (digits) 
if k — 2: 


seq += ')' 


return seq 
相信 大 家 都 能 看 懂 。 当 然 ， 还 有 更 好 的 写法 ， 比 如 : 


import random 


def generate(): 
ts = mA IEH EAEE TE TEORA ETT] 
ds = u'0123456789' 


os = u'4-*' 


cs [random. choice (ds) if x$2 == 0 else random.choice (os) 
for x in range(5)] 


return random.choice (ts) .format (*cs) 


除了 生成 算式 以 外 , 还 有 一 个 值得 注意 的 地 方 就 是 初赛 所 有 的 减 号 (也 就 是 -' o 都 是 细 的 ， 
但 是 我 们 直接 用 captcha 库 生 成 图 像 会 得 到 粗 的 减 号 ， 所 以 修改 了 captcha. python 库 中 image.py 
的 代码 ， 在 draw character 函数 中 增加 了 一 句 判断 ， 如 果 是 减 号 ， 就 不 进行 resize 操作 ， 这 样 
能 够 防止 减 号 变 粗 : 


# https://github.com/lepture/captcha/blob/v0.2.2/captcha/image.py 
* line 191-194 
Ef 

im = im.resize((w2, h2)) 


im = im.transform((w, h), Image.QUAD, data) 


import string 


import os 


digits = string.digits 

operators = '4-*" 

characters = digits + operators + '() ' 

width, height, n len, n class = 180, 60, 7, len(characters) + 1 
from captcha.image import ImageCaptcha 

generator = ImageCaptcha (width-width, height-height, 


font sizes-range(35, 56), 
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tonts-I'"tonbts/$s'*x for x jn'os-TIistdir('tonts*) 1t *"-tt' 3n x1 


) 


generator.generate image(' (1-2)-3'") 


图 10-12 就 是 原版 生成 器 生成 的 图 ， 可 以 看 到 减 号 是 很 粗 的 。 我 们 再 使 用 改写 后 的 代码 ， 
生成 如 图 10-13 所 示 的 图 ， 可 以 看 到 减 号 已 经 不 粗 了 。 


from image import ImageCaptcha 
generator = ImageCaptcha (width=width, height=height, 
font sizes-range(35, 56), 
fonts-['fonts/5s'$x for x in os.listdir('fonts') if '.tt' in x] 
) 


generator.generate image('(1-2)-3') 


ume CEN; 


10-12 原版 生成 器 生成 的 图 图 10-13 改进 的 生成 器 生成 的 图 


10.3.3 模型 结构 
模型 结构 的 代码 如 下 : 


from keras.layers import * 
from keras.models import * 
from make parallel import make parallel 


rnn size = 128 


input tensor = Input((width, height, 3)) 
X = input tensor 
for i in range(3): 
X = Conv2D(32*2**i, (3, 3), kernel initializer-'he normal') (x) 
= BatchNormalization() (x) 
= Activation('relu') (x) 
Conv2D(32*2**i, (3, 3), kernel initializer-'he normal') (x) 
= BatchNormalization() (x) 


= Activation('relu') (x) 


X X X K X K 
[i 


= MaxPooling2D(pool size-(2, 2)) (x) 


conv shape - x.get shape() 
x = Reshape(target shape-(int(conv shape[1]), int(conv shape[2]*conv | 


shape[31))) (x) 


x = Dense(128, kernel initializer-'he normal!) (x) 
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x = BatchNormalization() (x) 


X — Activation('relu') (x) 


gru 1 = GRU(rnn size, return sequences-True, 
kernel initializer-'he normal', name-'grul') (x) 
gru lb = GRU(rnn size, return sequences-True, go backwards-True, 
kernel initializer-'he normal', 
name-'grul b') (x) 


grul merged = add([gru 1, gru 1b]) 


gru 2 = GRU(rnn size, return sequences-True, kernel initializer-'he 
normal', name-'gru2') (grul merged) 
gru 2b = GRU(rnn size, return sequences-True, go backwards-True, 
kernel initializer-'he normal', 


name-'gru2 b') (grul merged) 


X = concatenate([gru 2, gru 2b]) 
X = Dropout (0.25) (x) 
x = Dense(n class, kernel initializer-'he normal', activation-'softmax') (x) 


base model = Model(input-input tensor, output-x) 
base model2 - make parallel(base model, 4) 


labels - Input(name-'the labels', shape-[n len], dtype-'float32') 

input length - Input(name-'input length', shape-(1,), dtype-'int64') 

label length = Input(name-'label length', shape-(1,), dtype-'int64') 

loss out = Lambda(ctc lambda func, name-'ctc') ([base model2.output, 
labels, input length, label length]) 


model = Model(inputs-(input tensor, labels, input length, label length), 
outputs-loss out) 

model.compile(loss-('ctc': lambda y true, y pred: y pred], 
optimizer-'adam') 


模型 结构 像 之 前 写 的 文章 一 样 ， 只 是 把 卷 积 核 的 个 数 改 多 了 一 点 ， 并 且 做 了 一 点 小 改动 支 
持 多 GPU 训练 。 如 果 你 使 用 的 是 单 卡 ， 可 以 直接 去 掉 base model2 = make parallel(base model, 
4) 的 代码 : 


from keras.layers.merge import Concatenate 
from keras.layers.core import Lambda 


from keras.models import Model 
import tensorflow as tf 


def make parallel(model, gpu count): 
def get slice(data, idx, parts): 
shape = tf.shape (data) 
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Size = tf.concat([ shape[:1] // parts，shape[1:] ],axis=0) 
stride = tf.concat([ shape[:1] // parts, 

shape[1:]*0 ], 

axis=0 
start = stride * idx 


return tf.slice(data, start, size) 


outputs all = [] 
for i in range (len (model.outputs)): 
outputs all.append([]) 


# 每 个 GPU 中 复制 一 份 模型 ， 然后 共同 分 担 同一 批 次 (batch) 输入 数据 
for i in range(gpu count): 
with tf.device('/gpu:$d' $ i): 
with tf.name scope('tower $d' $ i) as scope: 
inputs - [] 
* 给 各 GPU 平均 分 配 任务 ， 分 析 同 一 批 次 的 输入 数据 
for x in model.inputs: 
input shape - tuple(x.get shape().as list())[1:] 
Slice n - Lambda( 
get slice, 
output shape-input shape, 
arguments-[('idx':i,'parts':gpu count] 
) (x) 


inputs.append(slice n) 


outputs - model (inputs) 
if not isinstance(outputs, list): 
outputs = [outputs] 


* 保存 不 同 SPU 的 训练 结果 
for 1 in range (len (outputs) ) : 
outputs all[l].append(outputs[1]) 
+ CPU 合并 不 同 ceu 的 训练 结果 ， 返 回 模型 
with tf.device('/cpu:0'): 
merged = [] 
for outputs in outputs all: 


merged.append (Concatenate (axis-0) (outputs)) 


return Model (model.inputs, merged) 


base model 的 可 视 化 如 图 10-14 所 示 。 
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model 的 可 视 化 如 图 10-15. 
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图 10-14 base model 可 视 化 


179 


深度 学 习 技术 图 像 处 理 入 门 


ALIE S0 BÀ 















[urs uie 


{E09 ‘O81 own) | ande 























180 











第 10 章 看 图 识字 一 一 使 用 深度 神经 网 络 进行 文字 识别 











我 们 可 以 看 到 模型 先 分 为 4 份 ， 在 4 个 显卡 上 并 行 计算 ， 然 后 合并 结果 ， 计 算 最 后 的 CTC 
LOSS， 进 而 训练 模型 。 

在 经 过 几 次 测试 以 后 ， 抛 弃 evaluate 函数 ， 因 为 在 验证 集 上 已 经 能 够 做 到 10096 识别 率 了 ， 
所 以 只 需要 看 val loss 就 可 以 了 。 在 经 过 之 前 的 几 次 尝试 以 后 ， 发 现在 有 生成 器 的 情况 下 ， 训 
练 代 数 越 多 越 好 ， 因 此 直接 用 adam 运行 了 50 代 ， 每 代 10 万 样本 ， 可 以 看 到 模型 在 10 代 以 后 
基本 已 经 收敛 。 虽 然 30 代 之 前 有 一 点 振荡 , 但 是 到 30 代 以 后 ， 模 型 已 经 稳定 在 100% 识别 率 了 ， 
如 图 10-16 所 示 。 
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10-16 训练 过 程 loss 可 视 化 


10.3.4 结果 可 视 化 


这 里 对 生成 的 数据 进行 了 可 视 化 ， 可 以 看 到 模型 基本 已 经 做 到 万 无 一 失 ， 百 发 百 中 ， 如 图 
10-17 所 示 。 
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图 10-17. 模型 预测 结果 可 视 化 
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打包 成 Docker 以 后 提交 到 比赛 系统 中 ， 经 过 十 几 分 钟 的 运行 ， 我 们 得 到 了 完美 的 1 分 ， 如 
图 10-18 所 示 。 


第 一 次 上 传 
运行 状态 : 运行 成 功 
ÆRA: 0.99980 路 分 日 期 : 2017-7-1 181519 
是 否 有 效 : 是 上 传 日 期 : 2017-7-10 22:04:13 


代码 地 址 : http//yangpeiwen bjbcebos.cor/baidu2 zip?authorization-bce-auth- 
v1I%2F25565d4c67ae486e86cb63f071b799fd%2F2017-07-10T14%3A04%3A06Z%2F- 
1%2Fhost%2Flccf872cc9662c47281d3244ffladc4e546141d1881f4606cd566b0eed5bf357 





第 二 次 上 传 
运行 状态 : 运行 成 功 
本 次 成 细 : 1.00000 跑 分 日 期 : 2017-7-13 01:20:27 
是 否 有 效 : 是 上 传 日 期 : 2017-7-13 0111.59 


代码 地 址 : http://yangpeiwen.bj.bcebos.com/baidu.zip?authorization=bce-auth- 
Vi%2F25565d4c67ae486e86cb63f071b799fd%2F2017-07-12T169%63A59963A47Z%2F- 
1%2Fhost%2F91850d7aff53e0cf2f7f6330d20bb5821416cde022680431250d61d3aeallb03 





图 10-18 提交 结果 截图 


10.3.5 总 结 


初赛 是 非常 简单 的 ， 因 此 才能 得 到 这 么 准 的 分 数 ， 之 后 官方 进一步 提升 了 难度 ， 将 初赛 测 
试 集 提 高 到 20 万 张 ， 在 这 个 数据 集 上 我 们 的 模型 只 能 拿 到 0.999925 的 成 绩 ， 可 行 的 改进 方法 
是 将 学 习 率 进一步 降低 ， 充 分 训练 模型 ， 将 多 个 模型 结果 融合 等 。 


扩充 测试 集 难点 
在 扩充 数据 集 上 ， 发 现 有 一 些 图 片 预测 出 来 无 法 计算 ， 比 如 [629,2271,6579,17416,71857,77 
631, 95303,102187,117422,142660,183693] 等 ， 这 里 以 117422.png 为 例 ( 见 图 10-19) 。 


P3 * 


+’ * 


图 10-19. 肉眼 不 可 分 辨 但 是 机 器 可 以 分 辨 的 样本 


可 以 看 到 肉眼 基本 无 法 认 出 这 个 图 ， 但 是 经 过 一 定 的 图 像 处 理 后 ， 能 够 显现 出 来 它 的 真实 
貌 ( 见 图 10-20) : 

















IMAGE DIR = 'image contest level 1 validate" 

index = 117422 

img = cv2.imread('$s/$d.png' $ (IMAGE DIR, index)) 
gray = cv2.cvtColor(img, cv2.COLOR BGR2GRAY) 

h = cv2.equalizeHist (gray) 
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可 以 看 到 如 图 10-20 所 示 的 结果 。 























0 z% 4 c0 æ 100 120 140 160 


图 10-20 经 过 直方 图 均衡 化 以 后 的 图 像 可 视 化 





当然 ， 还 有 一 张 图 是 无 法 通过 预 处 理 得 到 结果 的 ， 这 是 第 142660 个 样本 〈 见 图 10-21) 。 














图 10-21 完全 无 法 辨认 的 样本 





这 有 可 能 是 程序 的 BUG 造成 的 小 概率 事件 ， 所 以 初赛 除了 我 们 跑 了 一 个 Docker 得 到 满分 
以 外 ， 没 有 第 二 个 人 达到 满分 。 


10.4 识别 四 则 混合 运算 验证 码 OAR) 


本 节 将 详细 介绍 四 则 混合 运算 识别 竞赛 决赛 时 的 所 有 思路 。 








10.4.1 问题 描述 
本 次 竞赛 的 目的 是 为 了 解决 一 个 OCR 问题 ， 通 俗 地 讲 就 是 实现 图 像 到 文字 的 转换 过 程 。 


1. 数据 集 

决赛 数据 集 一 共 包 含 10 万 张 图 片 和 一 个 labels.txt 的 文本 文件 。 每 张 图 片 包含 一 个 数学 运算 
式 ， 运 算式 中 包含 : 

(1) 图 片 大 小 不 固定 。 
(2) 图 片 中 的 某 一 块 区 域 为 公式 部 分 。 
(3) 图 片 中 包含 二 行 或 者 三 行 的 公式 。 

(4) 公式 类 型 有 两 种 : 赋值 和 四 则 运算 的 公式 。 两 行 的 包括 一 个 赋值 公式 和 一 个 计算 公式 ， 
三 行 的 包括 两 个 赋值 公式 和 一 个 计算 公式 。 加 号 〈+) 即使 旋转 为 x， 仍 为 加 号 ，* 是 乘 号 。 
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(5) 赋值 类 的 公式 ， 变 量 名 为 一 个 汉字 。 汉字 来 自 两 句 诗 〈 不 包括 逗号 ) : 君 不 见 ， 黄 
河 之 水 天 上 来 ， 奔 流 到 海 不 复 回 烟 锁 池 塘 柳 ， 深 圳 铁 板 烧 。 

(6) 四 则 运算 的 公式 包括 加 法 、 减 法 、 乘 法 、 分 数 、 括 号 。 其 中 的 数字 为 多 位 数字 ， 汉 
字 为 变量 ， 由 上 面 的 语句 赋值 。 

(7) 输出 结果 的 格式 为 : 图 片 中 的 公式 ， 一 个 英文 空格 ， 计 算 结果 。 其 中 :， 不 同行 公式 
之 间 使 用 英文 分 号 分 隔 计算 结果 时 , 分 数 按照 浮 点 数 计算 , 计算 结果 误差 不 超过 0.01, 视 为 正确 。 

(8) 整个 label 文件 使 用 UTF8 编码 。 


决赛 样 例 如 图 10-22 所 示 。 


-PNI M & 








”Yl 459? Ex 
HIPS 


图 10-22 决赛 样 例 


初赛 的 题 不 难 ， 只 需要 识别 文本 序列 即 可 ， 决 赛 的 算式 比较 复杂 ， 需 要 先 经 过 图 像 处 理 ， 
然后 才能 输入 到 神经 网 络 中 进行 端 到 端的 文本 序列 识别 。 

2. 评价 指标 

官方 的 评价 指标 是 准确 率 ， 初 赛 只 有 整数 的 加 减 乘 运算 ， 所 得 的 结果 一 定 是 整数 ， 所 以 要 
求 序列 与 运算 结果 都 正确 才 会 判定 为 正确 。 

决赛 的 数字 通常 都 是 5 位 数 ， 并 且 会 有 很 多 乘法 和 加 法 ， 以 及 一 定 会 存在 的 一 个 分 数 ， 所 
以 结果 很 容易 超出 64 位 浮 点 数 所 能 表示 的 范围 ， 因 此 官方 在 经 过 讨论 后 决定 只 考虑 文本 序列 的 
识别 ， 不 评价 运算 结果 。 

我 们 本 地 除了 会 使 用 官方 的 准确 率 作为 评估 标准 以 外 ， 还 会 使 用 CTC Loss 来 评估 模型 。 


10.4.2 数据 集 探索 


1. 定义 

决赛 的 数据 集 探索 复杂 得 多 ， 先 明确 两 个 概念 : 

流 —42072; HI| =86;( YI] -(97510*45921))* 流 /35864 

在 这 个 式 子 中 ，“ 流 42072; 圳 =86;” 被 称 为 赋值 式 ，“( 圳 -(97510*45921))* 流 /35864" 
被 称 为 表达 式 ， 赋 值 式 和 表达 式 统称 为 公式 ，“+、-、*、/” 被 称 为 运算 符 。 
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2. 分 析 
首先 对 样本 中 每 个 字 出 现 的 次 数 进行 了 统计 ， 如 图 10-23 所 示 。 














10-23 对 字数 进行 统计 
可 以 看 到 数字 的 分 布 很 有 意思 ，0 出 现 的 次 数 比 其 他 数字 都 低 ， 其 余 的 数字 出 现 次 数 基本 
一 样 ， 立 即 推算 这 是 直接 按 随机 数 生成 的 ，0 不 能 出 现在 首位 ， 所 以 概率 变 低 。 
分 号 和 等 号 出 现 的 次 数 一 样 ， 这 是 因为 每 个 赋值 式 都 有 一 个 等 号 和 一 个 分 号 。 它 出 现 的 概 
率 是 1.65807， 因 此 可 以 猜 出 一 个 赋值 式 和 两 个 赋值 式 的 比例 是 1:2。 
运算 符 出 现 的 概率 都 是 一 样 的 ， 所 以 可 以 推断 它们 是 直接 随机 取 的 。 
括号 出 现 的 概率 是 1.36505， 统 计 了 一 下 括号 出 现 的 所 有 可 能 : 
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一 共有 11 种 可 能 ， 按 照 括 号 的 数量 统计 括号 出 现 的 频率 可 以 得 出 2*5/11.0+5/11.0=1.3636， 
因此 括号 也 是 从 上 面 几 种 模板 随机 取 的 。 

中 文 除 了 “不 ” 字 出 现 了 两 次 , 概率 翻 倍 , 其 他 字 概 率 基 本 相等 。 中 文字 取 自 于 下 面 两 句 诗 : 
“ 君 不 见 ， 黄 河 之 水 天 上 来 ， 奔 流 到 海 不 复 回 烟 锁 池 塘 柳 ， 深 圳 铁 板 烧 ”， 所 以 也 可 以 推断 出 
是 按照 字 直 接 随机 取 的 。 

3. 小 结 

e 中文 直接 等 概率 取 ，“ 不 ”概率 加 倍 。 

e 括号 从 11 种 情况 中 随机 取 。 

e 运算 符 每 次 必 出 4 个 。 

。 1/3 概率 取 一 个 赋值 式 ，2/3 概率 取 2 个 赋值 式 。 

e 运算 符 / 永 远 都 会 出 现 一 次 ， 中 文 在 上 。 

。 运算 符 +-* 随机 取 ， 概率 都 是 1/3。 

。 ”数字 取 值 范围 是 [0, 100000]。 


10.4.3 数据 预 处 理 

由 于 原始 的 图 像 十 分 巨大 ， 直 接 输入 到 CNN 中 会 有 90% 以 上 的 区 域 是 没有 用 的 ， 因 此 需 
要 对 图 像 进行 预 处 理 ， 裁 前 出 有 用 的 部 分 。 接 下 来 ， 因 为 图 像 有 两 到 三 个 式 子 ， 因 此 采取 的 方 
案 是 从 左 到 右 拼 接 在 一 起 ， 这 样 的 好 处 是 图 像 比较 小 〈900*80=72000 vs 600*270=162000) 。 

这 里 主要 使 用 了 以 下 几 种 技术 ， 这 些 技术 的 主要 内 容 在 第 3 章 图 像 处 理 入 门 中 基本 都 有 所 


涉及 : 


e HARE 
€ ”直方 图 均衡 
e 中 值 滤波 
。 开 闭 运算 
。 二 值 化 

。 de EU 
。 AREH 


参考 链接 : 


http: 
http: 
http: 
http: 
http: 
http: 
http: 
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//docs 
//docs 
//docs 
//docs 
//docs 
//docs 
//docs 


-opencv.org/master/df/d9d/tutorial py colorspaces.html 
-opencv.org/master/d5/daf/tutorial py histogram equalization.html 
-opencv.org/master/d4/d13/tutorial py filtering.html 
-opencv.org/master/d9/d61/tutorial py morphological ops.html 
-opencv.org/master/d7/d4d/tutorial py thresholding.html 
-opencv.org/master/d4/d73/tutorial py contours begin.html 
-opencv.org/master/dd/d49/tutorial py contour features.html 
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首先 进行 初步 的 关键 区 域 提取 ， 操 作 步 又 如 下 : 


def plot (index): 
img = cv2.imread('$s/$d.png'$ (IMAGE DIR, index)) 
gray = cv2.cvtColor(img, cv2.COLOR BGR2GRAY) 


eq = cv2.equalizeHist (gray) 
b — cv2.medianBlur(eq, 9) 


m, n — img.shape[:2] 
b2 = cv2.resize(b, (n//4, m//4)) 


ml = cv2.morphologyEx(b2, cv2.MORPH OPEN, np.ones((7, 40))) 
m2 = cv2.morphologyEx (ml, cv2.MORPH CLOSE, np.ones((4, 4))) 
+ bw = cv2.threshold(m2, 127, 255, cv2.THRESH BINARY INV) 


bw = cv2.resize(bw, (n, m)) 


r — img.copy() 
img2, ctrs, hier = cv2.findContours (bw, cv2.RETR EXTERNAL, 
CV2.CHAIN APPROX SIMPLE) 
for ctr in ctrs: 
X, y, W, h = cv2.boundingRect (ctr) 
cv2.rectangle(r, (x, y), (x*w, y*h), (0, 255, 0), 10) 


1. 去 噪 

拿 到 原始 图 像 (图 10-24 左上 角 的 图 ) 后 ， 首 先 将 图 像 转 灰 度 图 ， 然 后 使 用 初赛 的 直方 图 
均衡 提高 图 像 的 对 比 度 ， 结 果 在 图 10-24 正中 间 的 eq。 这 里 噪点 还 在 ， 所 以 需要 进行 滤波 ， 这 
里 使 用 了 中 值 滤波 ， 它 能 够 很 好 地 滤 掉 噪点 和 干扰 线 ， 滤 波 结果 在 图 10-24 右上 角 blur. 

2. 连接 公式 

现在 只 关心 公式 的 提取 ， 而 不 在 意 字符 的 提取 (因为 无 法 保证 准确 提取 ) ， 所 以 需要 将 这 
些 字符 连接 起 来 。 这 里 首先 对 图 像 进 行 4 倍 的 缩放 ， 结 果 是 图 10-24 左下 角 的 ml。 然 后 使 用 
一 种 叫 作 开 闭 运算 的 算法 来 连接 字符 。 因 为 要 的 是 横向 连接 ， 纵 向 不 需要 连接 ， 所 以 选择 CT. 
400 大 小 的 开 运算 ， 为 了 滤 掉 不 必要 的 噪声 ， 我 们 使 用 〈4, 4) 的 闭 运算 ， 开 闭 运 算 的 结果 位 于 
10-24 中 间 的 m2。 


3. 关键 区 域 提取 


在 拼接 好 公式 以 后 , 就 可 以 对 图 像 使 用 轮廓 查找 的 算法 了 , 很 容易 抓 到 图 像 的 三 个 边缘 点 集 ， 
然后 使 用 边界 和 矩形 函数 得 到 矩形 的 (x, y, w, h) ， 完 成 关键 区 域 提取 。 提 取 之 后 将 绿色 的 矩形 画 
在 原 图 上 ， 结 果 位 于 图 10-24 右 下 角 的 rect。 
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图 10-24 实施 图 像 处 理 的 过 程 
4. 微调 








由 于 之 前 使 用 了 很 大 的 kernel 进行 滤波 ， 会 造成 原始 图 像 分 辩 率 降低 ， 因 此 这 里 需要 进行 
一 个 微调 的 操作 : 








# 微调 三 个 公式 
d - 20 
d2 = 5 
imgs = [] 
sizes = [] 
for i, ctr in enumerate (ctrs): 
X, y, W, h = cv2.boundingRect (ctr) 
roi = img[max(0, y-d):min(m, y*h*d),max(0, x-d):min(n, x*w*d)] 


Pr d, = roi.shape 


b[max(0, y-d):min(m, y-*h*d),max(0, x-d):min(n, x*w*d)] 
x = cv2.morphologyEx(x, cv2.MORPH CLOSE, np.ones((3, 3))) 
+ X = cv2.threshold(x, 127, 255, cv2.THRESH BINARY INV) 

+ X, _ = cv2.findContours (x, cv2.RETR EXTERNAL, 

Cv2.CHAIN APPROX SIMPLE 


X, y, W, h = cv2.boundingRect (np.vstack (x) ) 
roi2 = roi[max(0, y-d2):min(p, y*h*d2), 
max(0, x-d2):min (q, x*w*d2)] 
imgs.append(roi2) 
sizes.append(roi2.shape) 
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habui aT 1 7520 像素 ， 然 后 裁剪 出 关键 区 域 ， 这 里 是 直接 对 滤波 的 图 裁剪， 
。 接 下 来 ， 经 过 简单 的 闭 运算 滤波 ， 二 值 化 ， 提 取 边 框 ， 这 里 即使 有 噪点 也 不 
担心 ， 裁 多 了 不 要 紧 ， 裁 少 了 才 麻 烦 ， 裁 出 来 的 图 可 能 会 比较 小 ， 因 为 滤波 过 了 ， 所 以 再 扩 
充 5 个 像素 ， 从 而 达到 不 错 的 效果 。 

图 10-25 中 显示 的 是 几 个 例子 。 左 边 是 检测 边框 ， 中 间 是 直接 按照 框 切割 ， 右 边 是 扩充 像 
素 切 割 。 
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图 10-25 示例 








5. 连接 三 个 公式 
裁 出 准确 的 公式 后 ， 就 可 以 直接 进行 横向 连接 了 : 
# 连接 三 个 公式 


sizes = urn e 


img2 = np.zeros( 
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(sizes[:,0].max(), 
sizes[:,1].sum() *2* (len(sizes)-1), 
3), dtype-np.uint8 


x-0 

for a in imgs[::-I]: 
w = a.shape[1] 
img2[:a.shape[0], x:x+w] = a 


x +=w+2 


如 图 10-26 所 示 是 拼接 好 的 图 像 。 








图 10-26 拼接 好 的 图 像 


6. 并 行 预 处 理 〈 见 图 10-27) 





如 果 直 接 使 用 Python 的 for 循环 去 运行 ， 只 能 占用 一 个 核 的 CPU 利用 率 ， 为 了 充分 利 








CPU， 使 用 多 进程 并 行 预 处 理 的 方法 让 每 个 CPU 都 能 满载 运行 。 为 了 能 够 实时 查看 进度 ， 使 
tqdm 这 个 进度 条 的 库 。 





p = Pool(12) 

n = 100000 

Blas name == !' main ': 
rs = [] 


for r in tqdm(p.imap unordered(f, range(n)), total-n): 
rs.append(r) 


In [3]: | $$time 


try: 
P 
except: 
p = Pool(12) 


n = 100000 
if name == ' main ': 
rs = [] 
for r in tgdm(p.imap unordered(f, range(n)), total-n): 
rs.append(r) 


100: MEN | 100000100000 [18:40«00:00, 89.28it/s] 


CPU times: user 17.1 s, sys: 2.79 s, total: 19.9 s 
Wall time: 18min 40s 


图 10-27 并 行 预 处 理 数据 
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7. 小 结 
这 里 将 各 个 量 之 间 的 关系 都 画 出 来 了 〈 见 图 10-28) ， 很 有 意思 。 


pd.plotting.scatter matrix(df, alpha-0.1, figsize=(14,8), diagonal-'kde'); 





























10-28 散布 和 矩阵 可 视 化 


其 中 的 x, y 表示 公式 的 起 始 坐标 ，w, h 表示 公式 的 宽 和 高 ，n, m 表示 原 图 的 宽 和 高 ，r 表示 
有 几 个 公式 。 我 们 可 以 从 中 看 到 ，x, y 没有 明显 的 规律 ， 稍 微 有 一 点 规律 就 是 越 宽 的 图 能 得 到 
的 x 越 大 ( 宽 1000 的 图 不 可 能 有 公式 出 现在 12000. 。 

w 也 没有 明显 的 规律 ， 是 典型 的 正 态 分 布 ， 而 h 则 有 两 个 峰 ， 这 是 因为 公式 有 两 个 和 三 个 
的 差别 。 

m, n 很 有 规律 ， 它 们 是 按照 某 几 个 固定 的 数 随机 取 的 ，m 的 取 值 是 从 [400, 500, 600, 700, 
800, 900, 1000] 中 随机 选取 的 ，n 是 从 [800, 1600, 2400, 3200, 4000] 中 随机 取 的 。 


Counter (df['m']) 

Counter((400: 14233, 
500: 14414, 
600: 14332, 
700: 14304, 
800: 14293, 
900: 14299, 
1000: 14125]) 


Counter (df ['n']) 


Counter((800: 19872, 1600: 19937, 2400: 20128, 3200: 19975, 4000: 
20088)) 
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10.4.4 模型 结构 


由 于 仅 对 base model 进行 了 修改 ，cte 部 分 直接 照搬 之 前 的 代码 即 可 ， 因 此 这 里 只 讨 
论 base model， 下 面 是 代码 : 


def ctc lambda func (args): 
y pred, labels, input length, label length = args 
y pred - y pred[:, 2:, :] 
return K.ctc batch cost(labels, y pred, input length, label length) 


rnn size — 128 
12 rate = le-5 


input tensor = Input((width, height, 3)) 
X = input tensor 
for i, n cnn in enumerate([3, 4, 6]): 
for j in range (n cnn): 
x = Conv2D(32*2**i, (3, 3), padding-'same', kernel 
initializer-'he uniform', 
kernel regularizer-12(12 rate)) (x) 
X = BatchNormalization(gamma regularizer-12(12 rate), beta - 
regularizer-12(12 rate)) (x) 
X = Activation ('relu') (x) 


x = MaxPooling2D((2, 2)) (x) 


# x = AveragePooling2D((1, 2)) (x) 


cnn model = Model(input tensor, x, name-'cnn') 


input tensor = Input((width, height, 3)) 


X = cnn model(input tensor) 

conv shape - x.get shape().as list() 

rnn length = conv shape[l1] 

rnn dimen - conv shape[3]*conv shape[2] 

print conv shape, rnn length, rnn dimen 

x = Reshape(target shape-(rnn length, rnn dimen)) (x) 
rnn length -= 2 


rnn imp = 0 


x = Dense(rnn size, kernel initializer-'he uniform', kernel 


regularizer-12(12 rate), bias regularizer-12(12 rate)) (x) 
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x = BatchNormalization(gamma regularizer-12(12 rate), beta 
regularizer-12(12 rate)) (x) 
X — Activation('relu') (x) 


$ x = Dropout (0.2) (x) 


gru 1 = GRU(rnn size, implementation-rnn imp, return sequences-True, 
name-'grul') (x) 

gru lb = GRU(rnn size, implementation-rnn imp, return sequences-True, 
go backwards-True, name-'grul b') (x) 

grul merged = add([gru 1, gru 1b]) 


gru 2 = GRU(rnn size, implementation-rnn imp, return sequences-True, 
name-'gru2') (grul merged) 

gru 2b = GRU(rnn size, implementation-rnn imp, return sequences-True, 
go backwards-True, name-'gru2 b') (grul merged) 


X = concatenate([gru 2, gru 2b]) 


# x = Dropout (0.2) (x) 

x = Dense(n class, activation-'softmax', kernel regularizer-12(12 rate), 
bias regularizer-12(12 rate)) (x) 

rnn out = x 

base model - Model(input tensor, x) 


在 经 过 多 次 的 代码 迭代 以 后 ， 将 enn 打包 为 一 个 model， 这 样 模型 会 简洁 很 多 。 

模型 思路 是 这 样 的 : 首先 输入 一 张 图 ， 然 后 通过 enn 导出 (112, 10, 128) 的 特征 图 。 其 中 ， 
112 就 是 输入 到 mn 的 序列 长 度 ，10 指 的 是 每 一 条 特征 的 高 度 为 10 像素 ， 将 后 面 (10, 128) 的 
特征 合并 成 1280， 然 后 经 过 一 个 全 连接 降 维 到 128 维 ， 就 得 到 了 (112, 128) 的 特征 ， 输 入 到 
RNN 中 ， 经 过 两 层 双向 GRU 输出 112 个 字 的 概率 ， 最 后 用 CTC LOSS 去 优化 模型 ， 从 而 得 到 
能 够 准确 识别 字符 序列 的 模型 ， 如 图 10-29 所 示 。 


1. CNN 

在 CNN 中 ， 理 论 上 最 大 序列 的 长 度 为 46 个 字符 (数字 可 能 为 100000) ， 所 以 是 
2*9+3*6+4+4+2=46。 对 于 CTC 来 说 ， 最 好 输入 大 于 最 大 长 度 2 倍 的 序列 ， 才 能 收敛 得 比较 好 。 
之 前 直接 卷 积 到 SO 左右 ， 然 后 对 于 连续 字符 来 说 ， 没 有 空白 能 将 它们 分 隔 开 来 ， 所 以 收敛 效 
果 会 差 很 多 。 需 要 注意 的 是 最 大 序列 长 度 ， 这 里 用 Python2 之 前 总 是 算 错 ， 因 为 没有 Decode 成 
UTF-8 的 话 ， 一 个 中 文 占 三 个 字 节 。 

CNN 的 结构 由 原来 的 两 层 卷 积 一 层 池 化 ， 改 为 了 多 层 卷 积 一 层 池 化 的 结构 。 由 于 卷 积 层 分 
别 是 3、4 和 6 层 ， 因 此 称 之 为 346 结构 。 
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| input: | (None, 900, 81.3) 
| output: | (None. 900, 81.3) 


input 4: InputLayer 















(None, 900, 81,3) 


| output: | (None, 112, 10, 128) 


cnn: Model 





input: | (None, 112, 10, 128) 
reshape 2: Reshape 
| output: 


(None, 112, 1280) 


















input: | (None, 112, 1280) 


| output: | (None, 112, 128) 


dense 3: Dense 









input: | (None, 112, 128) 


batch normalization 28: BatchNormalization 
| output: | (None, 112, 128) 


| input: | (None, 112, 128) 
| output: | (None, 112, 128) 


tion. 28: Activation 








input: | (None, 112, 128) input: | (None, 112, 128) 


1: GRU 1 b: GRU 
ET | output: | None, 112,128) | | - | output: | (None. 112. 128) 


input: | [(None, 112, 128), (None, 112, 128)] 








add 2: Add 
| output: (None, 112, 128) 
2: GRU | input | (None, 112. 128) | input: | (None. 112, 128) 
gru2: 


2 b: GRU 
| output: | (None 112.12 | 197 (None. 112, 128) 


input: | [(None, 112, 128), (None, 112. 128)] 
concatenate 2: Concatenate 
output: (None, 112, 256) 


| input: | (None. 112.256) 
| output: | (None, 112,45) 


图 10-29 模型 结构 可 视 化 





dense 4: Dense 
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2. GRU 

为 什么 使 用 循环 神经 网 络 呢 ? 这 里 举 一 个 经 典 的 例子 : “ 研 表 究 明 ， 汉 字 的 序 顺 并 不 定 一 
E 影 阅 响 读 ”， 当 看 完 这 句 话 后 ， 才 发 现 这 里 的 字 全 是 乱 的 。 

人 眼 去 阅读 一 段 话 的 时 候 ， 会 顾及 上 下 文 ， 不 是 依次 单个 字符 的 识别 ， 因 此 引入 循环 神经 
网 络 去 识别 上 下 文 能 够 极 大 提升 模型 的 准确 率 。 在 决赛 中 , 序列 有 几 个 地 方 都 是 有 上 下 文 关系 的 


前 面 一 个 或 两 个 赋值 式 一 定 是 “中 文 = 数字 ;” 这 样 的 形式 。 

左 括号 一 定 会 有 右 括号 。 

括号 的 位 置 是 有 语法 规则 的 。 

一 定 会 有 一 个 分 式 。 

分 式 的 分 子 一 定 是 中 文 。 

如 果 只 有 一 个 赋值 式 ， 那 么 表达 式 中 的 中 文 一 定 是 赋值 式 的 中 文 。 

如 果 有 两 个 赋值 式 ， 赋 值 式 容易 看 清 ， 表 达 式 不 容易 看 清 ， 那 么 可 以 通过 赋值 式 的 中 文 
去 修正 表达 式 的 中 文 ， 特 别 是 分 子 中 文 被 裁 掉 的 时 候 。 


3. 其 他 参数 
相 比 之 前 初赛 的 模型 ， 这 里 进行 了 一 些 修改 : 


padding 变 为 same， 不 然 觉得 特征 图 的 高 度 不 够 ， 无 法 识别 分 数 。 

增加 了 12 正则 化 ，loss loss 变 得 更 大 了 ， 但 是 准确 率 变 得 更 高 了 (添加 12 的 部 分 包括 卷 
积 层 的 kernel, BN 层 的 gamma 和 beta， 以 及 全 连接 层 的 weights 和 bias) 。 

各 个 层 的 初始 化 变 为 he_uniform， 效 果 比 之 前 好 。 

去 掉 了 dropout， 不 清楚 影响 如 何 ， 但 是 反正 有 生成 器 ， 应 该 不 会 出 现 过 拟 合 的 情况 。 
修改 过 GRU 的 implementation 为 2， 原因 是 希望 显卡 能 加 快 GRU 的 速度 ， 但 是 似乎 速 
度 还 不 如 设置 为 0， 使 用 CPU 来 运行 ， 所 以 又 改 回来 了 。 


1 正则 化 的 参数 直接 参考 了 Xception 论文 5.3 节 给 的 参数 : 


Weight decay: The Inception V3 model uses a weight decay (L2 regularization) 


rate of 4e-5, which has been carefully tuned for performance on ImageNet. We 


found this rate to be quite suboptimal for Xception and instead settled for 


Te-5: 


10.4.5 生成 器 


为 了 得 到 更 多 的 数据 ， 提 高 模型 的 泛 化 能 力 ， 使 用 了 一 种 很 简单 的 数据 扩充 办 法 ， 就 是 根 
据 表达 式 的 中 文 随 机 挑选 赋值 式 ， 组 成 新 的 样本 。 这 里 取 了 前 350*256-89600 个 样本 来 生成 ， 
用 之 后 的 10240 个 样本 进行 验证 集 ， 还 有 一 点 零头 因为 太 少 就 没有 用 了 。 

导入 数据 的 时 候 ， 先 读 取 运 算式 的 图 像 ， 然 后 按照 中 文 导入 赋值 式 的 图 像 到 字典 中 。 因 为 
字典 中 的 key 是 无 序 的 ， 所 以 在 字典 中 保存 的 是 list， 列 表 是 有 序 的 。 
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from collections import defaultdict 


cn imgs = defaultdict (list) 
cn labels - defaultdict (list) 
ss imgs = [] 


ss labels = [] 


for i in tqdm (range (nl)): 
ss = df[0][i].decode('utf-8').split(';") 
m — len(ss)-1 
ss labels.append(ss[-11) 
ss imgs.append(cv2.imread('crop split2/$d $d.png'$(i, 0)). 
transpose(1, 0, 2)) 
for j in range (m): 
cn labels[ss[j][0]1].append(ss[31) 
cn imgs[ss[j1[0]1].append(cv2.imread("' crop split2/$d $d.png'$ (i; 
m-j)).transpose(1, 0, 2)) 


接 下 来 实现 生成 器 ， 这 里 继承 了 Keras 中 的 Sequence 25: 


from keras.utils import Sequence 


class SGen (Sequence): 
def _ init (self, batch size): 
self.batch size - batch size 
Self.X gen = np.zeros((batch size, width, height, 3), dtype-np. 
uint8) 
self.y gen = np.zeros((batch size, n len), dtype-np.uint8) 
self.input length - np.ones(batch size)*rnn length 


self.label length - np.ones(batch size)*38 


def en (sett): 


return 350*256 // self.batch size 


def  getitem (self, idx): 
self.X gen[:] = 0 


for i in range(self.batch size): 


try: 
random index = random.randint(0, n1-1) 
cls - [] 
SS — ss labels[random index] 


cs = re.findall (ur' [\u4e00-\u9fff] ', d£ [0] [random index]. 
decode('utf-8').split(';"') [-1]) 
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random. shuffle (cs) 
x-0 
for c in cs: 
random index2 = random. randint (0, len(cn_ 
labels[c])-1) 
cls.append(cn labels[c] [random index2]) 
img = cn imgs[c] [random index2] 
w, h, | = img.shape 
self.X gen[i, x:x+w, :h] = img 
X += W+2 
img = ss imgs[random index] 
w, h,  - img.shape 
self.X gen[i, x:x*w, :h] = img 


cls.append(ss) 


random str = u';'.join(cls) 


self.y gen[i,:len(random str)] = [characters.find(x) for 
x in random str] 
self.y gen[i,len(random str):] - n class-1 
self.label length[i] = len(random str) 
except: 
pass 


return [self.X gen, self.y gen, self.input length, self.label 
length], np.ones(self.batch size) 


首先 随机 取 一 个 表达 式 ， 然 后 用 正则 表达 式 查找 里 面 的 中 文 ， 再 从 “{ 中 文 : 图 像 数 组 }” 
的 字典 中 随机 取 图 像 ， 经 过 之 前 预 处 理 的 方式 拼接 成 一 个 新 的 序列 。 

例如 ， 随 机 取 了 一 个 “85882*( 河 /76020-37023)- 铁 ”， 然 后 从 铁 的 赋值 式 中 随机 取 一 个 ， 
再 从 河 的 赋值 式 中 随机 取 一 个 ， 拼 起 来 就 能 得 到 图 10-30。 


9/37 Q 








图 10-30 数据 增强 可 视 化 











可 以 看 到 背景 颜色 是 不 同 的 ， 但 是 并 不 影响 模型 去 识别 。 


10.4.6 模型 的 训练 


训练 的 策略 是 先 用 Adam0 默认 的 学 习 率 1e-3 快速 收敛 50 代 , 然后 用 Adam(1e-4) 运行 50 代 ， 
达到 一 个 不 错 的 loss, JE HI Adam(1e-5) 微调 50 代 ， 每 一 代 都 保存 权 值 ， 并 且 把 验证 集 的 准确 
率 运行 出 来 。 图 10-31 中 绿色 的 线 0.9977 就 是 按照 上 面 的 方法 训练 的 模型 。 
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10 





一 0,9977 
— full train 
— 0,9976 
08 


06 


loss 


04 


02 











00 - - 





图 10-31. 训练 过 程 loss 可 视 化 


当然 ， 还 尝试 过 先 按 照 le-3 的 学 习 率 训练 20 代 ， 然 后 1e-4 和 1e-5 交替 训练 2 次 ， 每 次 训 
练 取 验 证 集 loss 最 低 的 结果 继续 训练 ， 也 就 是 图 10-31 中 红色 的 线 ， 虽 然 速 度 快 ， 但 是 准确 率 


不 够 好 。 
之 后 将 全 部 训练 集 用 于 训练 ， 得 到 蓝 色 的 线 ， 效 果 和 绿色 差不多 。 


10.4.7 预测 结果 
读 取 测试 集 的 样本 ， 然 后 用 base model 进行 预测 。 这 个 过 程 很 简单 ， 就 不 资 述 了 。 


X = np.zeros((n, width, height, channels), dtype=np.uint8) 


for i in tqdm(range (n)): 
img = cv2.imread(' crop split2 test/$d.png' $i).transpose(1, 0, 2) 
a, b, _ = img.shape 
X[i, :a, :b] = img 

base model - load model('model 346 split2 3 $s.h5' $ z) 


base model2 - make parallel(base model, 4) 


y pred - base model2.predict(X, batch size-500, verbose-1) 
out = K.get value(K.ctc decode(y pred[:,2:], input length-np.ones(y 
pred.shape[0])*rnn length) [0][0]) [:, :n len] 





输出 到 文件 的 部 分 有 一 点 值得 一 提 ， 就 是 如 何 计 算出 真实 值 : 


ss = map(decode, out) 


vals = [] 
errs - [] 
errsid - [] 
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for i in tqdm(range (100000)): 
val nt 
ECIS 
à= sspil.spiit('*) 
s — a[-1] 
for x in a[:-1]: 
X, C = x.split('-') 
s = s.replace(x, ct'.0") 
val = '$.2f' $ eval(s) 
except: 
* disp3 (i) 
errs.append(ss[il) 
errsid.append (i) 


ss[i] = '' 
vals.append (val) 


with open('result $s.txt' $ z, 'w') as f: 
f.write('NAn'.join(map(' '.join, list(zip(ss, vals)))). 
encode ('utf-8')) 


print len(errs) 
print 1-len(errs)/100000. 


运算 结果 : 


output 


N 


+ 
0.99978 

其 中 的 思路 说 起 来 很 简单 ， 就 是 将 表达 式 中 的 赋值 式 中 文 蔡 换 为 赋值 式 的 数字 ， 然 后 直接 用 
python eval 得 到 结果 ， 算 不 出 来 的 直接 留 空 即 可 。 这 个 0.9977 模型 的 可 算 率 达到 了 0.99978， 也 就 
是 说 十 万 个 样本 中 只 有 22 个 样本 不 可 算 。 当 然 ， 实 际 上 还 是 有 一 些 样本 即使 可 算 ， 也 会 因为 各 种 
原因 识别 错 ， 例 如 5 和 6 就 是 错误 的 重 灾区 ， 某 些 数字 被 干扰 线 切 过 ， 导 致 肉 眼 都 辨认 不 清 等 。 


10.4.8 模型 结果 融合 


模型 结果 融合 的 规则 很 简单 ， 对 所 有 的 结果 进行 次 数 统计 ， 首 先 去 掉 空 的 结果 ， 然 后 取 最 
高 次 数 的 结果 即 可 ， 其 实 就 是 简单 的 投票 。 


import glob 
import numpy as np 


from collections import Counter 


def fun(x): 
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x 





c = Counter (x) 
c[' '] 20 


return c.most common () [0] [0] 


ss = [open(fname, 'r').read().split('Mn') for fname in glob. 
glob('result model*.txt')] 

S = np.array(ss).T 

with open('result.txt', 'w') as f: 


f.write('\n'.join (map (fun, s))) 


将 上 面 loss 图 中 的 三 个 模型 结 ， 最 后 得 到 了 0.99868 的 测试 集 准 确 率 。 


10.4.9 其 他 尝试 


1. 不 定 长 图 像 识别 
在 比赛 刚 开始 的 时 候 ， 尝 试 过 将 图 像 的 宽度 设置 为 None， 也 就 是 不 定 长 的 宽度 ， 但 是 由 于 
无 法 解决 reshape 的 问题 ， 这 个 方案 被 否 了 
2. 分 别 识别 
之 前 尝试 过 图 像 切 成 几 块 分 别 识别 ， 赋 值 式 和 表达 式 的 模型 分 开 ， 考 虑 到 无 法 得 到 上 下 文 
的 信息 ， 可 能 会 丢失 一 定 的 准确 率 ， 做 到 一 半 否 掉 了 这 个 方案 。 











3. 生成 器 尝试 
我 们 尝试 过 写 一 个 生成 器 ， 但 是 由 于 和 官方 给 的 图 像 差 太 远 ， 并 且 实 际 测试 的 时 候 要 么 是 





生成 的 准确 率 高 、 官 方 的 准确 率 低 ， 要 么 反 过 来 ， 所 以 没有 投入 使 用 。 
图 10-32 中 第 一 个 是 官方 的 图 像 ， 后 面 5 个 是 生成 器 生成 的 ， 可 以 看 到 我 们 的 字 没有 官方 
的 紧 次， 等 号 也 不 太一 样 ， 而 分 式 的 字 又 太 紧凑 了 。 














图 10-32 生成 器 生成 的 图 像 
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4. 其 他 CNN 模型 的 尝试 

除了 自己 搭 模型 ， 还 尝试 过 用 ResNet、DenseNet 蔡 换 CNN， 然 后 进行 训练 。 但 是 这 些 模 
型 本 身 就 很 大 ， 训 练 起 来 速度 很 慢 ， 前 面 的 val loss 一 直 在 抖动 ， 并 且 最 终 提 交 的 效果 又 和 浅 
层 模型 没有 太 大 差别 ， 所 以 为 了 快速 尝试 更 多 方案 ， 舍 弃 了 类 似 ResNet 复杂 模型 (JILE 10- 
33) 的 想法 。 




















— uus 
一 valloss 











epoch 


图 10-33 复杂 模型 训练 过 程 loss 可 视 化 


5. 替换 GRU 73 LSTM 

在 比赛 最 后 尝试 过 将 GRU 替换 为 LSTM， 得 到 的 结果 是 十 分 类 似 的 〈 见 图 10-34) ， 但 是 
提交 上 去 后 准确 率 有 轻微 下 降 〈 多 错 了 几 个 样本 ， 可 能 是 运气 问题 ) ， 之 前 做 验证 码 识别 的 时 
候 也 是 替换 过 ， 效 果 差不多 ， 因 此 没有 继续 尝试 。 理 论 上 这 个 序列 长 度 并 没有 很 长 ，GRU 和 
LSTM 影响 不 大 。 








一 Gu 
一 tm 











00 - 
o 20 EJ Ej 80 100 120 w 


epoch 


图 10-34 GRU 和 LSTM 训练 过 程 loss 可 视 化 
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10.4.10 小 结 


1. 对 项 目的 思 
本 项 目 需要 注意 以 下 一 些 要 点 。 
e ”数据 准备 


> “深度 学 习 与 传统 图 像 处 理 技术 相 结合 ， 可 以 达到 更 好 的 准确 率 。 
> 文本 识别 可 以 构造 验证 码 生 成 器 进行 数据 增强 ， 增 加 训练 样本 数 。 


。 ”模型 优化 


> ”如 何 根据 项 目 特点 对 模型 结构 进行 调整 ， 如 CNN 部 分 减少 池 化 层 使 用 等 。 


> 为 了 防止 过 拟 合 ， 
日 ”模型 训练 
> “使 用 学 习 率 衰减 策略 ， 训 练 模型 。 


> “对 复杂 的 模型 ， 可 以 将 同一 批 次 输入 数据 分 摊 给 多 个 GPU 进行 计算 。 


2. 有 趣 的 样本 


在 模型 中 引入 L2 正则 化 。 


在 测试 集 里 有 一 个 95170.png 样本 很 难 分 割 ， 如 图 10-35 所 示 。 
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图 10-35. 95170.png 样本 





它 的 表达 式 也 很 难 切 ， 稍 有 不 慎 就 切割 掉 


因为 它 的 字 太 浅 了 ， 很 难 被 切割 出 来 ， 肉 眼 也 基本 上 无 法 分 辨 。 
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10-36 切割 掉 中 文 
在 分 割 的 验证 集中 ， 发 现 了 被 干扰 线 成 功 干扰 的 样本 ， 如 图 10-37 所 示 。 


true :80-76798,(8/89908*54862)*58582*44773 
pred-88-46798,(18/89908454862)*58582*44773 


62 3586 B 47 19 


图 10-37. 被 干扰 线 干扰 的 样本 
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我 们 可 以 看 到 第 一 个 “7” 倾 斜 后 加 上 一 条 干扰 线 ， 很 容易 就 被 模型 辨别 为 “4” 了 ， 但 是 
人 类 却 不 会 犯 这 样 的 错 ， 这 也 是 CNN 和 人 之 间 的 区 别 ， 目 测 卷 积 层 自动 把 图 像 转 灰 度 图 了 。 


3. 可 能 的 改进 

将 生成 器 写 出 来 , 可 以 获取 无 穷 无 尽 的 样本 。 对 5 和 6 的 识别 , 以 及 更 多 横向 的 中 文 的 识别 ， 
会 有 很 好 的 帮助 。 

做 更 好 的 预 处 理 ， 比 如 干扰 线 和 字 的 颜色 是 不 同 的 ， 可 以 通过 程序 去 除 ， 切 图 可 以 更 精准 
一 些 ， 可 以 极 大 地 提高 训练 速度 。 

使 用 其 他 的 模型 ， 比 如 竞赛 讨论 群 中 有 人 提 到 的 attention 模型 ， 或 者 看 看 OCR 相关 的 论文 ， 
查找 更 多 的 模型 融合 结果 ， 比 直接 运行 类 似 结构 的 模型 来 融合 的 效果 会 好 很 多 。 
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见习 医生 一 一 使 用 全 卷 积 神经 
网 络 分 割 病 理 切 片 中 的 癌 组 织 


这 里 简单 介绍 如 何 使 用 第 5 章 和 第 6 章 提 到 的 全 卷 积 神经 网 络 (FCN) ， 来 预测 病理 切片 
中 哪 部 分 是 癌症 组 织 。 这 里 通过 对 560 张 病理 切片 进行 学 习 ， 得 到 了 不 错 的 预测 结果 ， 这 个 模 
型 至 少 可 以 作为 辅助 诊断 工具 ， 减 少 病理 医生 的 工作 量 。 


11.1 任务 描述 





赛 题 来 自 数 愿 组 织 的 病理 切片 AT 识别 挑战 赛 初赛 赛 题 (www.datadreams.org/ race-race-3. 
htmD . 官方 描述 如 下 。 


11.1.1 赛 题 设置 
大 赛 选 取 骨 癌 病 理 切片 图 像 为 比赛 数据 ， 参 赛 团队 运用 人 工 智 能 的 技术 ， 开 发 算法 模型 ， 


Br diis EL JR TR 





切片 数据 ， 检 测 判断 病理 切片 图 像 有 无 癌症 。 大 赛 通过 探索 上 胃癌 病 至 





切片 智能 
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诊断 的 优秀 算法 ， 提 升 胃癌 检测 的 效率 ， 协 助 医生 诊疗 。 参 赛 者 可 下 载 数据 ， 在 本 地 调试 算法 ， 
提交 结果 由 机 器 自动 评测 成 绩 ， 并 定时 公布 排行 榜 。 


11.1.2 数据 描述 


初赛 选取 骨 癌 病理 切片 ， 为 常规 HE 染色 ， 放 大 倍数 20X ， 图 片 大 小 为 2048X2048 像素 ， 
比赛 数据 为 整体 切片 的 部 分 区 域 ，ti 企 格式 。 比 赛 不 允许 使 用 外 部 数据 。 初赛 选取 100 个 病人 案 
例 〈 部 分 为 癌症 、 部 分 为 非 癌症 ) ， 共 计 1000 张 病理 切片 图 片 ， 训 练 集 数量 700 张 ， 测 试 集 数 
量 300 张 。 


11.1.3 数据 标注 


病理 专家 将 数据 标记 ( 双 盲 评估 + 验证 ) 为 有 无 癌症 ， 并 用 线条 画 出 肿瘤 区 域 轮廓 。 原 始 
数据 以 及 标注 数据 内 容 如 图 11-1 所 示 。 
原始 数据 标注 数据 








图 11-1 原始 数据 与 标注 数据 


11.2 总 体 思 路 


由 于 需要 实现 像素 级 别 的 图 像 分 割 ， 因 此 考虑 使 用 全 卷 积 神经 网 络 (FCN) ， 使 用 如 图 
11-2 所 示 的 架构 。 
在 这 种 架构 基础 之 上 ， 有 以 下 想法 : 


e 图 形 分 辩 率 很 高 ， 可 以 考虑 将 一 张 图 片 拆 分 为 多 张 小 图 片 进 行 模型 训练 。 

e 由 于 只 有 700 张 图 片 ， 并 且 是 RGB 图 片 ， 根 据 在 第 9 章 猫 狗 大 战 中 的 经 验 ， 以 及 最 后 
提 到 的 皮肤 癌 判 断 项 目的 分 析 架 构 ， 这 里 考虑 引入 迁移 学 习 。 

e 样本 数量 有 限 ， 可 能 会 有 过 拟 合 现象 发 生 ， 考 虑 在 反 卷 积 层 中 引入 12 正则 化 。 

e 样本 数量 有 限 ， 考 虑 进行 数据 增强 。 
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| Conv + ReLu Í Max Pooling Í Prediction Í Deconv Í Softmax 


(图 片 来 源 : PCA-aided Fully Convolutional Networks for Semantic Segmentation of Multi-channel fMRI) 
图 11-2 全 卷 积 神经 网 络 架构 


对 于 第 一 点 ， 其 实 我 们 的 训练 图 像 已 经 是 经 过 切割 之 后 的 图 片 了 一 一 病理 切片 的 图 片 大 小 
通常 是 上 万 个 像素 点 X 上 万 个 像素 点 的 分 辨 率 ， 这 里 已 经 是 切割 成 2048X2048 的 小 图 片 了 。 
这 里 的 测试 中 ， 发 现 直 接 将 2048X2048 的 输入 图 片 转换 成 256X256 分 辨 率 后 训练 ， 单 张 GPU 
占用 10GB 显存 的 情况 下 ， 训 练 模型 通常 需要 接近 两 小 时 的 时 间 。 因 此 ， 这 里 就 不 继续 将 图 片 
拆 成 小 图 片 了 ， 直 接 将 输入 图 片 分 辨 率 转换 成 256X256， 降 低 分 辨 率直 接 训 练 。 读 者 如 果 在 云 
服务 器 租用 显存 更 高 、 显 卡 更 多 的 机 器 ， 可 以 考虑 将 图 片 进行 二 次 裁剪 ， 剪 成 更 多 的 图 片 ， 而 
不 是 简单 地 减 小 分 辩 率 ， 进 而 用 更 高 的 分 辩 率 训练 模型 。 

对 于 第 二 点 ， 可 以 直接 将 VGG16 模型 中 imageNet 的 训练 结果 运用 到 这 里 ， 在 此 基础 上 ， 
进一步 地 添加 反 卷 积 层 。 

对 于 第 三 点 ， 引 入 正则 化 的 话 ， 同 我 们 第 2 章 逻 辑 回归 类 似 ， 在 引入 12 正则 化 时 ， 需 要 注 
意 在 损失 函数 处 将 模型 的 权重 加 进去 。 

对 于 第 四 点 ， 由 于 病理 切片 不 涉及 拍摄 的 角度 问题 ， 可 以 引入 旋转 以 及 小 范围 的 缩放 ， 但 
由 于 癌症 区 域 在 颜色 、 形 态 、 细 小 颗粒 等 特征 会 和 正常 区 域 有 所 区 别 ， 因 此 数据 增强 的 过 程 中 ， 
不 引入 噪点 ， 不 改变 颜色 。 


11.3 构造 模型 


由 于 这 部 分 内 容 需 要 实现 的 功能 比较 复杂 ， 不 再 是 像 之 前 一 样 的 顺序 执行 《Sequencial) 的 
架构 ， 这 里 没有 继续 使 用 Keras 框架 。 实 际 上 ， 我 们 也 没有 必要 直接 用 更 底层 的 tnn 模块 ， 现 
有 版 本 TensorFlow (v1.1.0) 的 t£layers 模块 使 用 起 来 也 很 方便 。 

模型 编写 仍然 遵循 三 段 论 一 一 准备 数据 、 构 建 模型 以 及 模型 优化 。 








207 


深度 学 习 技术 图 像 处 理 入 门 


11.3.1 准备 数据 


准备 数据 中 遇 到 的 第 一 个 问题 ， 就 是 如 何 处 理 svg 格式 的 标注 数据 。 首 先 ，svg 的 标注 ， 看 
起 来 是 一 个 空心 的 区 域 ， 实 际 模型 训练 过 程 中 ， 需 要 将 其 转换 成 实心 区 域 。 其 次 ，svg 是 一 种 矢 


量 图 ， 并 不 是 以 矩阵 的 形式 存储 的 ， 需 要 将 其 转换 为 矩阵 。 





对 于 第 一 点 ， 打 开 svg 文件 会 发 现 这 里 标注 区 域 使 用 了 诸如 <polygon fll=”none” points= 
“537,742 .. 537,742”  stroke-" &f8691c" stroke-width=”5” /> 这 样 的 形式 。 我 们 意识 到 图 像 
室 心 的 原因 ， 是 因为 fll 里 面 写 的 内 容 是 none， 可 以 改 成 黑色 ， 换 成 fl=” 帮 FFFFF。 注 意 ， 标 
注 区 域 有 橘 黄色 的 边 ， 填 充 色 换 成 黑色 的 同时 ， 也 需要 将 多 边 形 区 域 边 的 颜色 设置 为 黑色 。 于 


是 这 里 可 以 考虑 使 用 正则 表达 式 直接 替换 : 


svg code = re. sub(r'''fill=" (\wt|None)"''', 


svg code = re.sub(r'''stroke-" (Nw*|None)"''', '''stroke-"4FFFFFF"''', 


svg code) 
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然后 对 第 二 点 ， 将 修改 后 svg 结果 以 png 的 格式 保存 下 来 : 


svg2png(bytestring-svg code, write to-"out.png") 


完整 函数 如 下 : 


def 


def 


get image(path, shape): 
"nn 
使 用 opencv 读 取 图 像 
:param path 输入 图 像 路 径 
:param shape 输出 图 像 大 小 
:return image 以 [H,Ww,C] 的 RGB 和 矩阵 形式 ， 输 出 图 像 
"nn 
image = cv2.imread (path) 
image = image[:,:,::-1] 
if shape !- None: 
image — cv2.resize(image, shape) 


return image 


sSvg process(svg file, shape): 

将 癌 细 胞 区 域 标注 的 矢量 图 svg 格式 的 文件 标注 ， 转 换 成 矩阵 ， 并 读 入 
:param svg file 输入 矢量 图 图 像 路 径 

:param shape 输出 图 像 大 小 


:return x 以 灰 度 矩阵 形式 ， 输 出 癌 细 胞 区 域 标注 的 结果 
image dir = os.path.dirname (svg file) 
image prefix = os.path.basename (svg file) .split(".svg") [0] 


'' 'fill="#FFFFFF"''', svg code) 
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if not os.path.isfile("$s/%s.png" $ (image dir, image prefix)): 
with open(svg file, "r") as f in: 

Svg code = f in.readlines() 

sSvg code = "".join(svg code[1:]) 

SVg code = re.sub(r'''fill-"(Nw*|None) "' '', 
'''fill="#FFFFFF"''', svg code) 

svg code = re.sub(r'''stroke-" (Nw*|None)"''', 
'"'"'stroke-"£FFFFFF"''', svg code) 

svg2png(bytestring-svg code, write to-"$s/$s.png" $ (image 
dir, image prefix)) 


img = get image("$s/$s.png" $ (image dir, image prefix), shape) 
return cv2.cvtColor(img, cv2.COLOR BGR2GRAY) 
这 部 分 遇 到 的 第 二 个 问题 是 数据 增强 。 首 先 考虑 能 否 直 接 使 用 Keras 的 现成 函数 ， 如 同 第 7 
章 CIFAR10 以 及 第 9 章 猫 狗 大 战 中 的 代码 一 样 。 
但 是 ， 麻 烦 事 来 了 ， 我 们 查阅 Keras API 后 ， 发 现 keras.preprocessing.image 的 这 个 模块 中 ， 
之 前 使 用 的 ImageDataGenerator 这 个 函数 输出 的 是 一 个 图 像 矩 阵 ， 外 加 一 个 分 类 种 类 的 标签 。 
而 我 们 需要 的 是 一 个 图 像 矩 阵 ， 以 及 一 个 经 过 同样 旋转 、 缩 放 变换 的 标注 矩阵 。 目 前 〈(V2.0.4 版 》 
这 个 功能 在 Keras 里 并 没 能 够 直接 实现 。 所 以 需要 写 一 个 可 以 同时 旋转 病理 图 像 以 及 标注 图 像 


的 函数 。 





附注 
比较 打 脸 的 是 ，Keras API 虽然 没有 直接 实现 这 个 功能 ， 但 是 官方 文档 中 有 提供 如 何 使 用 
ImageDataGenerator 同时 变换 图 像 和 标注 区 域 的 案例 。 具体 而 言 , 就 是 用 两 个 参数 相同 的 生成 器 ， 
使 用 同一 套 随 机 种 子 ， 对 不 同文 件 夹 的 输入 执行 两 次 即 可 。 在 作者 写 后 面 的 代码 之 后 ， 考 虑 能 
否 给 Keras 项 目 “ 贡 献 自己 的 一 份 力量 ”时 ， 发 现 Keras 官方 文档 给 出 了 这 样 的 方法 : 


data gen args = dict(featurewise center-True, 
featurewise std normalization-True, 
rotation range-90., 
width shift range-0.1, 
height shift range-0.1, 
zoom range-0.2) 

image datagen = ImageDataGenerator(**data gen args) 


mask datagen = ImageDataGenerator(**data gen args) 


# Provide the same seed and keyword arguments to the fit and flow methods 
seed = I 
image datagen.fit(images, augment-True, seed-seed) 


mask datagen.fit (masks, augment-True, seed-seed) 
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image generator = image datagen.flow from directory( 
'data/images', 
class mode-None, 


seed-seed) 


mask generator = mask datagen.flow from directory( 
'data/masks', 
class mode-None, 


seed-seed) 


* combine generators into one which yields image and masks 


train generator - zip(image generator, mask generator) 


model.fit generator( 
train generator, 


steps per epoch-2000, 


epochs-50) 


所 以 接 下 来 的 内 容 ， 大 家 可 以 当成 学 习 材料 ， 实 际 运用 中 可 以 考虑 使 用 更 简单 的 Keras 官 
方案 例 。 





实现 这 个 功能 的 方法 有 很 多 ， 这 里 采用 的 方法 是 ， 改 造 Keras 功能 接近 的 函数 。keras. 
preprocessing.image 这 个 模块 位 于 https://github.com/fchollet/keras/blob/2.0.4/keras/ preprocessing/ 
image.py， 看 起 来 相对 独立 ， 没 有 复杂 的 引用 关系 ， 因 此 可 以 简单 地 阅读 下 Keras 如 何在 一 张 图 
片 中 实现 图 像 反 转 、 缩 放 ， 进 而 通过 简单 的 改造 实现 在 另 一 张 图 片 中 执行 同样 操作 。 

首先 回忆 第 8 章 ， 我 们 是 如 何 对 CIFAR-10 数据 使 用 生成 器 的 : 


from keras.preprocessing.image import ImageDataGenerator 


datagen - ImageDataGenerator(...) 


datagen.fit(X train) 


于 是 在 ImageDataGenerator 类 中 的 fit 方法 进一步 定位 到 augment, UA & random transform 
方法 所 在 的 位 置 : 


# 649-654, fit 
if augment: 
ax = np.zeros(tuple([rounds * x.shape[0]] + list(x.shape) [1:]), 
dtype-K.floatx()) 
for r in range (rounds): 
for i in range (x.shape[0]): 


ax[i + r * x.shape[0]] = self.random transform(x[i]) 
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X = ax 


theta = np.pi / 180 * np.random.uniform(-self.rotation range, self. 


rotation range) 
ZX, zy = np.random.uniform(self.zoom range[0], self.zoom range[1], 2) 


# 566-570 random transform 
if theta != 0: 
rotation matrix = np.array([[np.cos(theta), -np.sin(theta), 0], 
[np.sin(theta), np.cos(theta), 0], 
[0, 0, 111) 


transform matrix = rotation matrix 


* 584-588 random transform 


if zx !- 1 or zy !- 1: 
zoom matrix = np.array([[zx, 0, 0], 
[0, zy, 0], 
[0, 0, 1]]) 


transform matrix = zoom matrix if transform matrix is None else 


np.dot(transform matrix, zoom matrix) 


# 593-594 random transform 
X = apply transform(x, transform matrix, img channel axis,fill mode-self. 


fill mode, cval-self.cval) 


我 们 发 现 ，Keras 这 部 分 代码 的 逻辑 是 ， 首 先 从 定义 的 范围 内 ， 根 据 均匀 分 布 CUniform) , 
随机 生成 一 个 旋转 角 、 缩 放 比 ， 进 而 通过 一 个 大 小 为 3X3 的 转换 矩阵 〈transform matrix) 来 表 
示 旋 转 、 缩 放 。 最 终 通过 apply transform 函数 实现 图 像 的 旋转 、 缩 放 。 

那么 我 们 的 改造 思路 ， 就 是 根据 定义 的 旋转 、 缩 放 范围 ， 随 机 生成 旋转 角 、 缩 放 比 之 后 ， 
进而 生成 转换 矩阵 ， 再 分 别 将 这 个 转换 矩阵 应 用 在 输入 病理 图 片 以 及 癌症 区 域 标注 图 片上 。 代 


码 如 下 : 


def apply transform(x, 
transform matrix, 
channel axis-0, 
fill mode-'constant', 
cval-0.): 
"nn 


进行 图 像 旋转 。 简 化 改写 了 : 


https://github.com/fchollet/keras/blob/master/keras/preprocessing/image.py 


:param x 输入 需要 旋转 的 图 像 向 量 
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:param transform matrix 图 像 旋转 矩阵 参数 


:param channel axis 哪 一 个 维度 代表 图 像 的 编号 。 对 IN, H, W, C], NÆR 
编号 ， 所 以 是 0 
:param fill mode 填充 由 于 旋转 造成 的 边缘 空白 的 方式 。 
可 选 {'constant', 'nearest', 'reflect', 'wrap') 
:param cval 如 果 是 'constant ' 填充 ， 则 在 空白 处 填写 什么 内 容 
:return x 旋转 后 的 图 像 





x = np.rollaxis(x, channel axis, 0) 
final afine matrix — transform matrix[:2, :2] 


final offset — transform matrix[:2, 2] 


+ 对 癌症 样本 ， 同 时 有 病理 切片 以 及 癌症 区 域 标注 图 片 
if cval is False: 
cha imgl = scipy.ndimage.interpolation.afine transform( 
x[0], final affine matrix, final offset, 


order-0, mode-fill mode, cval-False 


cha img2 - scipy.ndimage.interpolation.afine transform( 
x[1], final affine matrix, final offset, 


order-0, mode-fill mode, cval-True 


channel images = [cha imgl, cha img2] 


+ 对 非 癌症 样本 ， 不 存在 癌症 区 域 标注 图 片 
else: 
channel images = [scipy.ndimage.interpolation.afine transform( 

x channel, 
final affine matrix, 
final offset, 
order-0, 
mode-fill mode, 


cval-cval) for x channel in x] 


x = np.stack(channel images, axis-0) 


x = np.rollaxis(x, 0, channel axis + 1) 


| 


return x 


def picture argument(image input, image gt, rotate, zoom): 


对 输入 的 病理 切片 ， 进 行 旋转 、 缩 放 操作 的 图 像 增强 ， 并 生成 经 过 同样 旋转 、 缩 放 操作 的 标注 
区 域 
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:param image input 输入 的 病理 切片 图 像 

:param image gt 输入 的 病理 切片 癌症 标注 区 域 图 像 
:param rotate 对 图 像 进行 旋转 的 正 负 角度 范围 
:param zoom 对 图 像 进行 缩放 操作 的 放大 缩小 百分比 


:return image input, image gt 旋转 、 缩 放 后 的 病理 切片 图 像 ， 以 及 对 应 的 癌症 区 
域 标注 
"nn 
theta = np.pi / 180 * np.random.uniform(-rotate, rotate) 
rotation matrix = np.array([[np.cos(theta), -np.sin(theta), 0], 
[np.sin(theta), np.cos(theta), 0], 
[0, 0, 11]) 


transform matrix = rotation matrix 
zx, Zy = np.random.uniform(1-zoom, l+zoom, 2) 
zoom matrix = np.array([[zx, 0, 0], 
[0, zy, 0], 
[0, 0, 1]]) 
transform matrix = np.dot(transform matrix, zoom matrix) 


h, w = image input.shape[0], image input.shape[l1] 
transform matrix - transform matrix offset center( 
transform matrix, h, w 
image input = apply transform(image input, transform matrix, 2, 
fill mode-"constant", cval-255) 


image gt - apply transform(image gt, transform matrix, 2, 
fill mode-"constant", cval-False) 


return image input, image gt 


大 功 告 成 。 接 下 来 将 这 些 函 数 包装 进 生成 器 。 由 于 训练 样本 、 验证 样本 需要 有 各 自 的 生成 器 ， 
因此 ， 这 里 在 生成 器 函数 batch gen 外 面 加 一 层 ， 这 样 就 可 以 给 两 组 样本 每 组 分 配 一 个 生成 器 。 


def gen_batch_func(l_sample, image shape): 


生成 器 函数 ， 输 入 样本 名 称 ， 每 调用 一 次 生成 器 ， 输 出 若干 张 病理 切片 图 片 以 及 对 应 的 癌症 区 
域 标注 图 片 


:Param 1 sample 输入 的 病理 切片 图 像样 本 名 称 ， 
对 应 的 病理 切片 图 像 放 在 ./FCN/image/merge 目录 下 
对 应 的 病理 切片 癌症 区 域 标注 放 在 ./FCN/1abeis 目录 下 
:param image shape 输出 图 片 的 大 小 
:return batch gen 输出 生成 器 ， 每 调用 一 次 生成 器 ， 输 出 若干 张 病理 切片 图 片 以 
及 对 应 的 癌症 区 域 标注 图 片 
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def batch gen(batch size, augmentation-True): 
random.shuffüle(1 sample) 
for batch i in range(0, len(1 sample), batch size): 
1 images = [] 


1 gt images 


E 
for sample in 1 sample[batch i:batch i+batch size]: 
gt image file = "./FCN/labels/$s.svg" $ (sample) 
image file = "./FCN/image/merge/$s.tiff" $ (sample) 
if os.path.isfile(gt image file): 
gt image raw — svg process(gt image file, 


shape-image shape 


else: 
gt image raw = np.zeros( 


[image shape[0], image shape[1]] 


image = get image(image file, shape-image shape) 
gt image 


gt image raw»100 


gt image - gt image.reshape(*gt image.shape, 1) 
gt image2 - np.bitwise not(gt image) 
gt out = np.concatenate( 


(gt image, gt image2), axis-2 


if augmentation: 
rotation = 180 
zoom = 0.2 
image,gt out = picture argument ( 


image, gt out, rotation, zoom 
l images.append (image) 
l gt images.append(gt out) 


yield np.array(l images), np.array(1l gt images) 


return batch gen 


11.3.2 构建 模型 
模型 的 构建 阶段 主要 分 为 两 个 部 分 。 


(1) 第 一 部 分 是 导入 用 ImageNet 预 训练 的 VGG16 模型 。 这 里 如 果 直 接 使 用 官方 地 址 的 
ckpt 格式 的 模型 ， 就 需要 首先 将 其 转换 成 pb 格式 的 模型 ， 并 将 ckpt 中 的 参数 值 写 入 .pb 文件 。 
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这 样 做 是 因为 直接 加 载 .pb 格式 的 模型 相对 容易 ，ckpt 格式 只 有 参数 ， 没 有 图 的 定义 ， 需 
要 在 代码 中 定义 模型 结构 ， 或 者 导入 其 他 .pb 文件 。 而 pb 格式 可 以 只 存储 图 的 模型 ， 也 可 以 进 
一 步 通过 TensorFlow 的 freeze graph 功能 ， 将 参数 写 入 .pb 文件 。 我 们 这 里 为 了 省 事 ， 直 接 下 载 
转换 完成 后 的 vgg16.pb 文件 。 


def load vgg(sess, vgg path): 


"nn 


载 入 vGG16 预 训练 模型 ， 返 回 我 们 基于 VGG16 训练 全 卷 积 神经 网 络 (FCN) 所 必需 的 中 间 变 量 。 
:param sess: TensorFlow Session 
:param vgg path: vggl6 模型 文件 的 下 载 路 径 。 模 型 使 用 Pb 格式 存储 ， 

下 载 地 址 : https://s3-us-west-1.amazonaws.com/udacity- 


selfdrivingcar/vgg.zip 


:return image input, keep prob, layer3 out, layer4 out, layer7 out 
返回 我 们 基于 vecie 训练 全 卷 积 神经 网 络 (FCN) 所 必需 的 中 间 变 量 

"nn 

vgg tag = 'vggl6' 

vgg input tensor name = 'image input:0' 


vgg keep prob tensor name = 'keep prob:0' 


vgg layer3 out tensor name = 'layer3 out:0' 
vgg layer4 out tensor name = 'layer4 out:0' 
vgg layer7 out tensor name = 'layer7 out:0' 


tf.saved model.loader.load(sess, [vgg tag], vgg path) 

graph = tf.get default graph() 

input image - graph.get tensor by name(vgg input tensor name) 

keep prob - graph.get tensor by name(vgg keep prob tensor name) 
vgg layer3 out - graph.get tensor by name(vgg layer3 out tensor name) 
vgg layer4 out - graph.get tensor by name(vgg layer4 out tensor name) 


vgg layer7 out = graph.get tensor by name(vgg layer7 out tensor name) 


return input image, keep prob, vgg layer3 out, vgg layer4 out, vgg 


layer7 out 


(2) 第 二 部 分 是 在 VGG16 模型 的 基础 上 ， 构 建 全 卷 积 神经 网 络 。 这 里 根据 fully 
convolutional networks for semantic segmentation 这 篇 文章 给 定 的 网 络 结构 ， 直 接 构建 模型 。 这 
里 需要 注意 的 是 ， 首 先 参数 需要 合理 地 初始 化 ， 我 们 在 第 5 章 介绍 卷 积 层 时 ， 提 到 卷 积 层 的 初 
始 化 过 程 中 ， 要 注意 随 着 层 数 的 增多 ， 随 机 初始 化 引入 的 方差 ， 会 随 着 连续 的 乘法 运算 ， 累 计 
增加 或 者 减少 ， 进 而 影响 整个 梯度 的 计算 。 因 此 这 里 同样 需要 注意 参数 的 合理 初始 化 ， 这 里 引 
入 了 xavier initializer0。 其 次 可 以 将 卷 积 核 通过 tfslice 抽出 来 作为 灰 度 图 像 ， 通 过 tf summary. 
image) 留 下 记录 ， 这 样 就 可 以 在 tensorboard 中 看 见 卷 积 核 的 结果 。 深 度 学 习 虽 然 不 容易 解释 ， 
被 人 当 作 “玄学 ”， 但 实际 上 并 非 无 法 解释 ， 通 过 对 卷 积 核 进行 可 视 化 分 析 ， 会 给 用 户 提供 很 
多 有 用 信息 。 
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def layers(vgg layer3 out, vgg layer4 out, vgg layer7 out, num classes): 
基于 load vgg 返回 的 VeG16 模型 中 间 结 果 ， 设 计 全 卷 积 神经 网 络 (FCN) 模型 
:param vgg layer7 out: TF Tensor for VGG Layer 3 output 
:param vgg layer4 out: TF Tensor for VGG Layer 4 output 
:param vgg layer3 out: TF Tensor for VGG Layer 7 output 
:param num classes: 需要 分 类 的 种 类 数目 。 这 里 是 肿瘤 区 域 / 非 肿瘤 区 域 的 二 分 类 
:return: 全 卷 积 神经 网 络 模型 (FCN) 的 输出 结果 
"nn 
with tf.name scope("32xUpsampled") as scope: 
conv7 1x1 = tf.layers.conv2d( 

vgg layer7 out, num classes, 1, 

padding-'same', name-"32x 1x1 conv", 

kernel regularizer-tf.contrib.layers.12 regularizer(g 12), 


kernel initializer-tf.contrib.layers.xavier initializer() 


conv7 2x = tf.layers.conv2d transpose( 
conv7 1x1, num classes, 4, 
strides-2, padding-'same', name-"32x conv trans upsample", 
kernel regularizer-tf.contrib.layers.12 regularizer(g 12), 


kernel initializer-tf.contrib.layers.xavier initializer() 


with tf.name scope("l6xUpsampled") as scope: 

conv4 1x1 = tf.layers.conv2d( 
vgg layer4 out, num classes, 1, 
padding-'same', name-"l6x 1x1 conv", 
kernel regularizer-tf.contrib.layers.12 regularizer(g 12), 
kernel initializer-tf.contrib.layers.xavier initializer() 

) 

conv mergel = tf.add(conv4 1x1l, conv?7 2x, 


name-"l16x combined with skip" 


conv4 2x = tf.layers.conv2d transpose( 
conv mergel, num classes, 4, 
strides-2, padding-'same',name-"16x conv trans upsample", 
kernel regularizer-tf.contrib.layers.12 regularizer(g 12), 


kernel initializer-tf.contrib.layers.xavier initializer() 


with tf.name scope("8xUpsampled") as scope: 
conv3 1x1 = tf.layers.conv2d( 
vgg layer3 out, num classes, 1, 


padding-'same', name-"8x 1x1 conv", 
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kernel regularizer-tf.contrib.layers.12 regularizer(g 12), 
kernel initializer-tf.contrib.layers -xavier initializer 0 

) 

conv merge2 = tf.add(conv3 1x1, conv4 2x, 


name-"8x combined with skip" 


conv3 8x - tf.layers.conv2d transpose( 
conv merge2, num classes, 16, 
strides-8, padding-'same', name-"8x conv trans upsample", 
kernel regularizer-tf.contrib.layers.12 regularizer(g 12), 
kernel initializer-tf.contrib.layers.xavier initializer() 


conv image 0 - tf.slice(conv3 8x, [0,0,0,0], [-1,-1,-1,1]) 
tf.summary.image("conv3 8x results 0", conv image O0) 


return conv3 8x 


tfsummary.image 中 的 结果 ， 训 练 过 程 中 可 以 通过 tensorboard 进行 可 视 化， 结果 类 似 图 11-3. 


cor Bd 
step 8400 (Wed Sep 27 2017 01:15:02 GMT«0800 (CST)) 





图 11-3 可 视 化 的 结果 


11.3.3 模型 优化 


有 目标 ， 才 有 优化 。 之 前 我 们 做 图 像 分 类 ， 目 标 就 是 尽 可 能 多 地 将 图 片 的 种 类 分 对 
在 我 们 做 单个 像素 的 图 像 分 割 ， 目 标 就 是 尽 可 能 多 地 将 图 片 中 每 一 个 像素 的 内 容 都 分 对 
目标 可 以 用 交叉 粹 来 代表 ， 写 成 程序 就 是 : 


entropy val = tf.nn.softmax cross entropy with logits( 


a 
E 





(z4 
7 


labels-true label, logits-pred label 
) 


cross entropy loss = tf.reduce sum(entropy val) 
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不 过 ， 在 最 开始 的 总 体 思路 中 ， 强 调 了 这 里 由 于 样本 少 ， 需 要 引入 正则 化 ， 防 止 过 拟 合 。 
所 以 我 们 的 目标 要 再 加 一 条 ， 就 是 在 尽 可 能 多 地 将 图 片 中 每 一 个 像素 的 内 容 都 分 对 的 基础 上 ， 
尽 可 能 使 用 更 少 、 更 小 的 参数 ， 防 止 参数 过 多 造成 对 数据 的 过 度 迎 合 。 这 个 升级 版 的 目标 ， 写 
成 程序 就 是 : 

# 收集 反 卷 积 层 用 到 的 参数 

reg losses = tf.get collection(tf.GraphKeys.REGULARIZATION LOSSES) 


# 更 新 的 目标 函数 ， 将 所 有 参数 的 平方 和 纳入 优化 目标 


loss = cross entropy loss + suml(reg losses) 
除了 自己 定义 的 目标 以 外 , 我 们 也 需要 考虑 这 项 比赛 的 指标 一 一 Fl 值 。 比 赛 官网 定义 如 下 : 


Evaluation of Cancerous Region Segmentation: 
Precision-(|TP|)/(|TP|-*|FPI) 
Recall-(|TP|)/(|TP|-* | FNI) 


Fl Score- (2:Precision- Recall) / (Precision*Reall) 
* TP: True Positive， 被 分 类 为 属于 癌变 区 域 ， 但 分 类 正确 。 


e FP: False Positive， 被 分 类 为 属于 癌变 区 域 ， 但 分 类 错误 。 
e FN: False Negative， 被 分 类 为 属于 非 癌 变 区 域 ， 但 分 类 错误 。 


于 是 根据 官方 的 定义 ， 我 们 写 一 个 Fl 值 的 算式 ， 作 为 一 个 独立 于 优化 指标 的 另 一 项 评价 指 
标 〈 这 种 独立 性 类 似 于 第 2 章 最 后 提 到 的 AUC 值 ) : 


argmax p = tf.argmax(pred label, 1) 
argmax y = tf.argmax(true label, 1) 
TP = tf.count nonzero( argmax p * argmax y, dtype-tf.float32) 
TN - tf.count nonzero((argmax p-1)*(argmax y-1), dtype-tf.float32) 
FP = tf.count nonzero( argmax p *(argmax y-1), dtype-tf.íloat32) 


FN = tf.count nonzero((argmax p-1)* argmax y, dtype-tf.float32) 
precision = TP / (TP+FP) 

recall = TP / (TP-FN) 

fl = 2 * precision * recall / (precision + recall) 

完整 代码 如 下 : 


def optimize(nn last layer, correct label, learning rate, num classes, 
batch size, split idx): 
定义 模型 的 优化 目标 〈 损 失 函 数 ) ， 设 置 优化 器 
:param nn last layer: ”全 卷 积 神经 网 络 模型 (FCN) 的 输出 结果 
:param correct label: 病理 切片 对 应 的 、 准 确 的 癌症 区 域 标注 
:param learning rate: 初始 学 习 率 大 小 
:param num classes: 需要 分 类 的 种 类 数目 。 这 里 是 癌症 区 域 / 非 癌症 区 域 的 二 分 类 
:return pred label: 病理 切片 对 应 的 、 模 型 预测 的 癌症 区 域 标注 
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:return training op: 优化 器 

:return cross entropy loss AE SUB A ER 

:return fl 比赛 规定 的 评价 指标 fl fü 
:return learning rate2 随 训练 次 数 逐 步 衰减 后 的 学 习 率 的 大 小 


pred label = tf.reshape( 

nn last layer, [-1, num classes], name-"predicted label" 
) 
true label = tf.reshape( 


correct label, [-1, num classes], name-"true label" 


with tf.name scope("fl score"): 
argmax p = tf.argmax(pred label, 1) 
argmax y = tf.argmax(true label, 1) 
TP = tf.count nonzero( 


argmax p * argmax y, dtype-tf.float32 


TN = tf.count nonzero( 


(argmax p-1)*(argmax y-1), dtype-tf.float32 


FP = tf.count nonzero( 


argmax p *(argmax y-1), dtype-tf.float32 


EN = tf.count nonzero( 


(argmax p-1)* argmax y, dtype-tf.float32 


precision = TP / (TP+FP) 
recall = TP / (TP+EN) 


fl = 2 * precision * recall / (precision + recall) 


with tf.name scope("cross entropy loss"): 
entropy val = tf.nn.softmax cross entropy with logits( 
labels-true label, logits-pred label 


cross entropy loss = tf.reduce sum(entropy val) 
reg losses = tf.get collection( 
tf.GraphKeys.REGULARIZATION LOSSES 


loss = cross entropy loss + sum(reg losses) 


with tf.name scope ("train"): 


batch = tf.Variable(0, tf.float32) 
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learning rate2 = tf.train.exponential decay( 
learning rate, # Base learning rate. 
batch * batch size, $ Current index into the dataset. 
split idx, # Decay step. 
0795; # Decay rate. 


staircase=True 


+ 不 使 用 learning rate decay 策略 的 话 ， 直 接 用 learning rate 


*optimizer = tf.train.AdamOptimizer(learning rate) 


optimizer = tf.train.AdamOptimizer(learning rate2) 


training op = optimizer.minimize(loss, global step-batch) 


return pred label, training op, cross entropy loss, fl, learning rate2 


optimizer 函数 作用 于 训练 集 ， 该 函数 输入 了 现 有 模型 预测 的 结果 以 及 真实 结果 ， 返 回 了 对 
训练 集 数据 表现 的 评价 (交叉 炉 以 及 和 i 值 ) ， 最 后 提出 对 整个 模型 参数 的 优化 。 对 于 验证 集 ， 
同样 可 以 得 到 现 有 模型 对 于 验证 集 的 预测 结果 以 及 验证 集 真实 结果 ， 但 我 们 只 需要 对 这 个 结果 
进行 评价 ， 不 可 以 用 验证 集 优化 模型 ， 因 此 对 验证 集 的 评价 方法 可 以 写成 : 


def validation(nn last layer, correct label, num classes): 


每 当 模 型 遍历 所 有 训练 样本 (80%，560 个 ) 之 后 ， 对 剩 下 209 的 验证 样本 执行 一 次 验证 操作 ， 
检验 模型 在 新 样本 上 的 表现 


:param nn last layer: 全 卷 积 神经 网 络 模型 (FCN) 的 输出 结果 

:param correct label: 病理 切片 对 应 的 、 准 确 的 癌症 区 域 标注 

:param num classes: 需要 分 类 的 种 类 数目 。 这 里 是 癌症 区 域 / 非 癌症 区 
域 的 二 分 类 

:return cross entropy loss cv  JEX NR AERE ( 验证 样本 ) 

:return fl CY 比赛 规定 的 评价 指标 £1 值 ( 验证 样本 ) 


mm 


pred label = tf.reshape(nn last layer, [-1, num classes], 
name-"predicted label cv" 

) 

true label - tf.reshape(correct label, [-1, num classes], 
name-"true label cv" 


) 


with tf.name scope("fl score cv"): 
argmax p = tf.argmax(pred label, 1) 
argmax y — tf.argmax(true label, 1) 


TP = tf.count nonzero( 
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argmax p * argmax y, dtype-tf.float32 


TN = tf.count nonzero( 


(argmax p-1)*(argmax y-1), dtype-tf.float32 


FP — tf.count nonzero( 


argmax p *(argmax y-1), dtype-tf.float32 


EN = tf.count nonzero( 


(argmax p-1)* argmax y, dtype-tf.float32 


precision = TP / (TP+FP) 


recall TP / (TP+EN) 


fl cv = 2 * precision * recall / (precision + recall) 
with tf.name scope("cross entropy loss cv"): 
entropy val = tf.nn.softmax cross entropy with logits( 
labels-true label, logits-pred label 


cross entropy loss cv = tf.reduce sum(entropy val) 


return cross entropy loss cv, fl cv 





的 癌 组 织 


我 们 明确 了 优化 目标 之 后 ， 还 需要 做 的 一 件 事 就 是 身体 力行 地 优化 这 个 模型 。 这 部 分 内 容 
在 第 8 章 的 Keras 版 本 中 ， 只 用 modelfit 一 行 就 完成 了 。 但 是 这 里 情况 比较 复杂 ， 首 先 我 们 进 
来 的 数据 并 不 是 常见 的 分 类 数据 ， 其 次 优化 目标 考虑 12 正则 化 之 后 也 更 加 复杂 。 因 此 这 里 还 是 


要 多 写 几 行 ， 实 现 : 


e 多 个 eproch 训练 。 

e 每 个 eproch 中 ， 每 次 用 batch size 个 样本 ， 进 行 模型 训练 优化 参数 。 

e Ex cd 4k 65 3:SUSVAUE fL 值 ， 写 入 tensorboard 日 志文 件 。 

。 完成 一 个 eproch IAE, MEERI RR GR (AL f 值 ) 。 


函数 实现 如 下 : 


def train nn(sess, epochs, batch size, get batches train, 
get batches cv, train op, cross entropy loss, 
cross entropy loss cv, fl, fl cv,lr, input image, 


correct label, keep prob, learning rate): 


汇总 之 前 的 结果 ， 训 练 定义 的 全 卷 积 神经 网 络 


:param sess: TF Session 


:param epochs: 训练 几 轮 数据 
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func(batch size) 


func(batch size) 


:param batch size: 批 次 大 小 

:param get batches train: 获取 训练 数据 的 生成 器 ， 使 用 方法 gen batch 

:param get batches cv: 获取 验证 数据 的 生成 器 ， 使 用 方法 gen batch 
:param train op: 训练 模型 的 操作 子 ， 

优化 目标 cross entropy loss-*12 loss 最 小 化 

:param cross entropy loss: AE XL ERO ( 训练 样本 ) 

:param cross entropy loss cv: AE XM ERU ( 验证 样本 ) 

:param f1: 比赛 规定 的 评价 指标 £1 fü ( 训练 样本 ) 

:param fl cv: 比赛 规定 的 评价 指标 £1 fH ( 验证 样本 ) 

:param input image: 模型 输入 图 片 大 小 

:param correct label: 病理 切片 对 应 的 、 准 确 的 癌症 区 域 标注 

:param keep prob: vec 模型 中 间 参 数 

:param learning rate: 初始 化 学 习 率 大 小 





*save training results for every eproch 
saver = tf.train.Saver() 


model dir = './usingNonAug models 12 norm ExpDecay lr $1.2e - 


12 $1.2e .e10 batch $d' $ (g lr, g 12, g batch size) 


log dir = "./usingNonAug logs 12 norm ExpDecay lr $1.2e 12 %1.2e 


e10 batch $&d" % (g lr, g 12, g batch size) 


&d.csv" 
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cv dir = "./usingNonAug cv ExpDecay lr $1.2e 12 $1.2e el0 batch 
$& (g lr, g 12, g batch size) 
if not os.path.isdir(model dir): 


os.mkdir (model dir) 


if not os.path.isdir(log dir): 
os.mkdir(log dir) 


f out - open(cv dir, "w") 


f out.write("Eproch,cv CrossEntropy loss, cv FlWMn") 


summary writer — tf.summary.FileWriter( 
log dir, graph-tf.get default graph() 


sess.run(tf.global variables initializer()) 
tf.summary.scalar("train loss", cross entropy loss) 
tf.summary.scalar("train fl", f1) 


merged summary op — tf.summary.merge all() 


global iteration idx = 0 


for i in range (epochs): 
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print("Epoch $d" $ i) 
ii = 0 
for batch image,batch label in get batches train(batch size, 
augmentation-True): 
ii += 1 
global iteration idx += 1 
train op ,cross entropy loss ,summary str,fl ,lr =\ 
sess.run( 
[train op, cross entropy loss, 
merged summary op, fl, lr], 
feed dict-( 
input image: batch image, 
correct label: batch label, 
learning rate : g lr, 
keep prob : 0.5 
H 
summary writer.add summary ( 
summary str, 
global iteration idx 
) 


print("Eproch $d, Iteration $d, loss = $1.5f, fl = $1.5f, 


= $1.5f" $& (i, ii, cross entropy loss , fl , lr )) 


* Save the model every eproch 
1 fl cv = [] 


1 loss cv = [] 


for batch image,batch label in get batches cv(batch size, 
augmentation-False): 
cross entropy loss , fl = sess.run( 
[cross entropy loss cv, fl cv], 
feed dict-( 
input image: batch image, 
correct label: batch label, 
keep prob : 0.5 
) 
1 loss cv.append(cross entropy loss ) 


1 fl cv.append(f1 ) 


np loss cv = np.array(1 loss cv) 
np f1 cv = np.array(1 fl cv) 
f out.write("$d,$1.5f,$1. 5f\n" $ (i, np.nanmean (np loss cv), 


np.nanmean(np fl cv))) 


1E 
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print("Validation, Eproch $d, loss = $1.5f, fl = $1.5f" $ (i, 
np.nanmean(np loss cv), np.nanmean(np fl cv))) 
tf.train.write graph(sess.graph def, model dir, 
'eproch $d loss' $% (i), as text-False) 


saver.save(sess, '$s/eproch $d loss' $ (model dir, i)) 


至 此 ， 整 个 模型 所 需 的 所 有 模块 定义 完成 了 。 下 一 步 完 成 主 函 数 ， 定 义 一 些 必要 的 变量 ， 
然后 将 所 有 模块 串联 起 来 : 


def main(): 


image shape (256, 256) 
num classes = 2 


random. seed (0) 


"nn 


获取 所 有 800 数据 的 样本 名 称 

以 8:2 比例 划分 所 有 样本 的 训练 集 以 及 验证 集 

注意 这 里 为 了 方便 分 析 ， 已 经 将 病理 切片 图 片 统一 放置 在 ./FCN/image/merge/ 文件 夹 中 
l_sample = os.listdir("./FCN/image/merge/") 

1 sample = [ s.split(".tiff")[0] for s in 1 sample] 

random.shuffe(1 sample) 

cv ratio = 0.8 

Split idx = int(len(1 sample)*cv ratio) 

1 sample train = 1 sample[0:split idx] 

1 sample cv = 1 sample[split idx:] 


get batches train = gen batch func(l sample train, image shape) 
get batches cv = gen batch func(l sample cv, image shape) 


模型 预计 占用 10GB 左右 显存 。 这 里 设置 tensorflow 不 一 次 性 耗 尽 显卡 的 所 有 显存 


mm 





config = tf.ConfigProto() 


config.gpu options.allow growth = True 


with tf.Session(config-config) as sess: 
config — tf.ConfigProto() 


"nn 


模型 训练 准备 。 设 置 使 用 生成 器 ， 以 及 占 位 符 


"nn 


vgg path = "./FCN/vgg/" 4 下 载 pb 格式 的 vcG16 模型 解压 缩 目 录 
get batches fn = gen batch func(l sample, image shape) 
epochs = 30 
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batch size = g batch size 
correct label — tf.placeholder( 


tf.int32, [None, None, None, num classes] 


learning rate — tf.placeholder (tf.float32) 


使 用 定义 的 函数 ， 构 建 模型 ， 规 定 优化 目标 ， 最 后 进行 模型 的 训练 





input image, keep prob, vgg layer3 out, vgg layer4 out, V 
vgg layer7 out = load vgg(sess, vgg path) 


nn last layer = layers(vgg layer3 out, 
vgg layer4 out, 
vgg layer?7 out, 
num classes 


pred label, training op, cross entropy loss, fl, lr = \ 
optimize(nn last layer, correct label, learning rate, 
num classes, batch size, split idx 
) 
cross entropy loss cv, fl cv = V 


validation(nn last layer, correct label, num classes) 


train nn(sess, epochs, batch size, get batches train, 
get batches cv, training op, cross entropy loss, 
cross entropy loss cv, fl, fl cv, lr, input image, 


correct label, keep prob, learning rate) 


114 程序 执行 


最 后 在 runfen.py 中 ， 将 学 习 率 、 正 则 化 参数 以 及 批 次 数据 大 小 作为 argv 环境 参数 ， 这 样 就 
可 以 通过 Linux 脚本 来 自动 寻找 最 优 参 数组 合 : 
展示 脚本 的 内 容 : 





!head runfcn.sh 


结果 如 下 : 


python runfcn.py le-3 le-2 2 
python runfcn.py le-4 le-2 


N 


python runfcn.py le-5 1e-2 


N 


225 


深度 学 习 技术 图 像 处 理 入 门 


模型 


python runfcn.py 1e-3 1e-2 
python runfcn.py 1e-4 1e-2 
python runfcn.py le-5 1e-2 
python runfcn.py 1e-3 1e-2 
python runfcn.py le-4 1e-2 


Cc CO C & à 


python runfcn.py le-5 1e-2 
e-6 


N 


python runfcn.py le-3 1 


其 中 有 希望 的 各 种 参数 组 合 ， 可 以 通过 直接 执行 脚本 ， 训 练 模型 ， 继 而 将 不 同 参数 训练 的 
分 别 保存 下 来 : 


!sh runfcn.sh 





115 模型 结果 可 视 化 


11.5.1 加 载 函 数 


加 载 需要 用 到 的 函数 : 


import re 

import os 

import cv2 

import pandas as pd 

import numpy as np 

import matplotlib.pyplot as plt 

from sklearn.model selection import train test split 
from sklearn.utils import shuffle 

from cairosvg import svg2png 

import matplotlib.pyplot as plt 

import random 

from tqdm import tqdm 

import tensorflow as tf 

from keras.preprocessing.image import transform matrix offset center 
import scipy 


import scipy.ndimage as ndi 
from runfcn import * 


$matplotlib inline 


11.5.2 选择 验证 集 并 编写 预测 函数 


训练 过 程 中 ， 我 们 已 经 按照 8:2 的 比例 定义 了 训练 集 以 及 验证 集 ， 这 里 进行 可 视 化 时 仍然 


使 用 这 个 定义 ， 主 要 看 验证 集中 的 结果 如 何 ， 进 而 写 出 预测 函数 。 
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(256, 256) 
2 


image shape 
num classes 


random.seed (0) 


1l sample = !1s ./FCN/image/merge/*tiff 
1 sample = [ s.split("/")[-1].split(".tiff") [0] for s in 1 sample] 
random.shuffle(1 sample) 


cv ratio — 0.8 
Split idx = int(len(1 sample)*cv ratio) 

get batches train = gen batch func(1 sample[0:split idx], image shape) 
get batches cv 


gen batch func(1 sample[split idx:], image shape) 


def predict using raw model(1 image file, model file, batch size, split idx): 
vgg path = "./FCN/vgg/" 
num classes = 2 
tf.reset default graph() 
with tf.Session() as sess: 
correct label = tf.placeholder (tf.int32, 


[None, None, None, num classes] 


learning rate = tf.placeholder (tf.float32) 


input image, keep prob, vgg layer3 out, vgg layer4 out,\ 
vgg layer?7 out = load vgg(sess, vgg path) 


nn last layer = layers(vgg layer3 out, vgg layer4 out, 


vgg layer7 out, num classes 


logits, training op, cross entropy loss, fl, lr = \ 
optimize(nn last layer, correct label, learning rate, 


num classes, batch size, split idx 


saver — tf.train.Saver() 
Saver.restore(sess, model file) 
1 street im = [] 
for image file in tqdm(1 image file): 
result file = "$s.region.png" $ (image file.split(".tiff") [0]) 
image raw — scipy.misc.imread(image file) 
image raw shape = image raw.shape[0:2] 
image = scipy.misc.imresize(image raw, image shape) 
im softmax — sess.run( 


[tf.nn.softmax(logits)], 


(keep prob: 1.0, input image: [image]] 
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im softmax = im softmax[0][:, 1].reshape( 


image shape[0], image shape[l] 


segmentation — (im softmax « 0.5).reshape( 
image shape[0], image shape[1], 1 
) 


mask = np.dot(segmentation, 

np.array([[0, 255, 0, 127]]) 
mask = scipy.misc.imresize(mask, image raw shape) 
mask = scipy.misc.toimage (mask, mode-"RGBA") 
street im = scipy.misc.toimage (image raw) 
street im.paste(mask, box-None, mask-mask) 


1 street im.append(street im) 


gray np.array((im softmax « 0.5)*255, dtype-np.uint8) 


gray - cv2.resize(gray, image raw shape) 
cv2.imwrite(result file, gray) 


return l street im 


11.5.3 根据 tensorborad 可 视 化 结果 选择 最 好 的 模型 


上 文 写 道 ， 在 runfenpy 中 将 学 习 率 、 正 则 化 参数 以 及 批 次 数据 大 小 作为 argv 环境 参数 。 通 
过 这 种 方式 ， 可 以 训练 多 组 参数 ， 从 中 寻找 最 优 的 一 组 参数 ， 这 组 参数 对 应 的 模型 ， 可 以 认为 
就 是 最 优 的 模型 。 


那么 如 何 找 出 其 中 最 好 的 一 个 模型 呢 ? 大 家 可 以 使 用 tensorborad 对 结果 进行 可 视 化 。 
tensorborad 在 环境 中 的 使 用 方式 如 下 : 


e 回 到 http://localhost:8888/ ， 单 击 右上 角 的 new， 添 加 Terminal. 
。 在 打开 的 黑色 终端 中 ， 输 入 : 


# 使 用 方法 : 


tensorboard --logdir [名称 1] : [tensorborad 文件 夹 1], [ 名 称 2]:[tensorborad X 
件 夹 2] ..- 


+ 对 于 我 们 这 里 跑 出 来 的 模型 : 

tensorboard --logdir lr 1e3 12 1e2 b 2:usingNonAug logs 12 norm. 
lr 1.00e-03 12 1.00e-02 el0 batch 2,:*,1r 1e5 12 1e6 b 4:usingNonAug logs 
12 norm lr 1.00e-05 12 1.00e-06 el0 batch 4 
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e ”打开 http://localhost:8888/ ， 等 待 模型 完成 加 载 。 


结果 如 下 : 


首先 看 训练 损失 函数 loss 的 结果 ， 如 图 11-4 所 示 。 我 们 发 现 learningRate=le-4、 正 则 化 常 
数 12=1e-2、 批 数据 大 小 batch size-2 的 情况 下 ， 模 型 在 训练 数据 中 的 损失 最 小 。 


rain. loss 
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11-4 各 参数 下 ， 模 型 训练 过 程 中 损失 函数 结果 随 着 训练 逐步 降低 


同样 ， 在 learningRate=1e-4、 正 则 化 常数 12=1e-2、 批 数据 大 小 batch_size=2 的 情况 下 ， 模 
型 在 训练 数据 中 f1 得 分 最 高 ， 如 图 11-5 所 示 。 


train f 
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图 11-5 各 参数 下 ， 模 型 训练 过 程 中 f1 结果 随 着 训练 逐步 降低 
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最 后 在 验证 集中 确认 结果 ， 同 样 发 现 这 一 组 参数 表现 最 好 : 


$5bash 

for i in 'ls usingNonAug cv lr 1.00e-0*csv" 

do echo $i && tail -n 1 $i 

done | paste - - | grep -v Fl | sed 's/,/Nt/g' | sort -nk 3 

usingNonAug cv lr 1.00e-04 12 1.00e-02 el0 batch 2.csv 29 33924.51562 
0.93591 usingNonAug cv lr 1.00e-04 12 1.00e-06 elO batch 2.csv 29 
34027.92578 0.93794 usingNonAug cv lr 1.00e-03 12 1.00e-06 el0 batch 2.csv 
29 37747.60547 0.93466 usingNonAug cv lr 1.00e-05 12 1.00e-02 elO batch 2. 
csv 29 40629.83594 0.93062 usingNonAug cv lr 1.00e-05 12 1.00e-06 el0_ 
batch 2.csv 29 41357.10547 0.93023 usingNonAug cv lr 1.00e-03 12 1.00e-02. 
el0 batch 2.csv 29 44756.12891 0.93455 usingNonAug cv lr 1.00e-03 
12 1.00e-02 el0 batch 4.csv 29 70589.04688 0.93778 usingNonAug cv_ 
lr 1.00e-04 12 1.00e-02 el0 batch 4.csv 29 72766.92969 0.93526 usingNonAug 
cv lr 1.00e-04 12 1.00e-06 elO batch 4.csv 29 75052.12500 0.93443 
usingNonAug cv lr 1.00e-03 12 1.00e-06 elO batch 4.csv 29 78452.96094 
0.93639 usingNonAug cv lr 1.00e-05 12 1.00e-02 elO batch 4.csv 29 
97774.84375 0.91497 usingNonAug cv lr 1.00e-05 12 1.00e-06 el0 batch 4.csv 
29 115415.34375 0.88782 usingNonAug cv lr 1.00e-03 12 1.00e-02 e10 batch 8. 
csv 29 149054.15625 0.93808 usingNonAug cv lr 1.00e-04 12 1.00e-02 el0_ 
batch 8.csv 29 156687.70312 0.93564 usingNonAug cv lr 1.00e-05 12 1.00e-02. 
el0 batch 8.csv 29 374531.71875 0.66432 


11.5.4. 尝试 逐步 降低 学 习 率 


对 于 之 前 的 结果 ， 直 接 用 Adam(1e-4) 的 参数 进行 模型 训练 。 我 们 考虑 将 学 习 率 逐步 降低 ， 
会 不 会 表现 得 更 好 。 注 意 ， 这 里 Adam 属于 自 适 应 学 习 率 的 代表 ， 根 据 第 7 章 的 算法 、 代 码 来 
看 ， 就 是 尽管 这 里 用 了 1e-4 的 学 习 率 ， 实 际 优化 过 程 中 ， 这 个 学 习 率 是 不 断 迭 代 减 小 的 ， 设 置 
learning_rate decay 的 必要 性 并 不 高 。 这 里 保留 此 部 分 内 容 ， 读 者 可 以 在 尝试 基于 动量 的 优化 算 
法 的 尝试 过 程 中 引入 这 种 策略 。 

实际 表现 也 符合 预期 ， 加 入 一 个 指数 衰减 的 学 习 率 下 降 操 作 以 后 ， 并 没有 很 好 地 提升 : 


%%bash 

tail usingNonAug cv ExpDecay lr 1.00e-04 12 1.00e-02 el0 batch 2.csv \ 
usingNonAug cv lr 1.00e-04 12 1.00e-02 el0 batch 2.csv 

==> usingNonAug cv ExpDecay lr 1.00e-04 12 1.00e-02 el0 batch 2.csv <== 

20,36099.92188,0.93504 

21,35943.85156,0.93427 

22,39463.47266,0.92656 

23,36184.65625,0.93661 

24,35735.08594,0.93603 
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25,35674.34766,0.93512 
26,40937.39062,0.91563 
27,37334.96094,0.93343 
28,35837.04688,0.93899 
29,35439.44141,0.93295 








==> usingNonAug cv lr 1.00e-04 12 1.00e-02 el0 batch 2.csv <== 
20,35261.18359,0.93672 
21, 34241.35547, 0.93779 
22, 41248 .08203, 0.93692 
23, 36137 .74609, 0.93574 
24,35158.97656,0.93502 
25,35176.26562,0.93528 
26,39708.64844,0.91887 
27,35172.44531,0.93328 
28,36062.39062,0.94078 
29,33924.51562,0.93591 


11.6 观察 模型 在 验证 集 上 的 预测 表现 


的 癌 组 织 





将 这 一 组 参数 训练 的 模型 运用 在 验证 集 上 ， 看 看 结果 如 何 : 


1 image file = [ 


] 


"./FCN/image/merge/$s.tiff" $ x for x in 1 sample[split idx:] 


1 label fiüle = [ 


"./FCN/labels/*s.png" $ x for x in 1 sample[split idx:] 


select model = "./usingNonAug models 12 norm ExpDecay lr 1.00e-04 12 
1.00e-02 el0 batch 2/eproch 29 loss" 


l im 


) 


predict using raw model( 


l image file, 


model file-select model, 


batch size-g batch size, 


Split idx-split idx 


对 验证 集 前 64 个 样本 进行 预测 。 这 些 图 片 一 行 4 个 样本 ， 每 个 样本 两 张 图 片 ， 其 中 左边 绿 


色 部 分 是 模型 预测 的 癌症 区 域 ， 右 边 黑色 区 域 是 真实 癌症 区 域 的 标注 。 


fig 


plt .figure (figsize=(20,20)) 
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for idx in range (32) : 
axl = fig.add subplot (8,8,2*idx*1) 
ax2 = fig.add subplot(8,8,2*idx42) 
img predict = 1 im[idx] 


try: 


img groundtruth - scipy.misc.imread(l label file[idx]) 
except: 


img groundtruth = np.zeros like(l im[idx])-*255 


axl.imshow(img predict) 

ax2.imshow(img groundtruth[:,:,0], "Greys") 
axl.set axis off() 

ax2.set axis off() 

axl.set title(l sample[split idx:][idx].split(".2048") [0]) 


2017-06-10 18 07 42 ndpi 16 45813 21148 







normali. ndpi 16.11224 27145. 5 56 ndpi 1632522 28074. 
^ ^a = 





roma rdpi,16 10515 21672 2017-06-10 11.28.57 ndpi.16.41919_28527 rormaD.ndpi.17 67358 17192 





2017-06-12 10 02 27 ndpi 16 21056 12616 





iue 
normal. ndpi 16.9042 35009 









normaD.ndpi.17.56330 12885 


201706:10.14432 dpi1776016,35905 — 2017.06-10 18.21 52 ndpi 15 15061 8725. 0610 15.11 06 ndpl 16 41571, 33552 V .06-10 14.09.49 ndpi 17 55792 16438 


n 1 RTRA m > 
2 
>+ nx 









2017-0610 1120.11 0dpi1 1159725 9100 — 20170610 15.1923 ndpi16.30335 14757 。 2017.00-10 14.56.14 ndpi16 23395 34306 


2017-06-10 17 





V.ndpi1635237 22668 — 2017.05.10 2019 55 ndpi 17 47139 18010 — 2017-06-10 14.09 40 ndpi 17 51129 16719 





2017.06-10.1326.55.ndpi 16.19008 22065 — 20170610 17 58 18d 1649110 25103 2017-0610 2019.55 rdpi 17 54230 22813 
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fig = plt.figure (figsize=(20,20)) 


for idx in range(32): 

axl = fig.add subplot(8,8,2*idx*1) 
fig.add subplot(8,8,2*idx*2) 
idx += 32 


ax2 


img predict = 1 im[idx] 
try: 


img_groundtruth scipy.misc.imread(l_label_file[idx]) 
except: 


img groundtruth = np.zeros_like(l_im[idx])+255 


axl.imshow(img predict) 

ax2.imshow(img groundtruth[:,:,0], "Greys") 

axl.set axis off() 

ax2.set axis off() 

axl.set title(1 sample[split idx:][idx].split("2048") [0]) 


2017-06-20, 15.56.34 ndpi 16 27855 20636. Normals ndpi 16 18723. 34019. 








2017-06-10_15 19.23.ndpi.16.22382_26073. 2017-06-12 09.5754n4p1614920 9644. 2017-06-10.15 56 34.ndpi 16.30614 21205. 201706-12 09.5] 54 ndpi.16 20278, 13750. 
ix G K i] 
E Not 


2017-06-10 18.34.21 ndpi 17.35509 31081. 
hs 5 


E 


P 
了 
2017.0610.2015 16 ndp17 57414 21031. 
t 
- 
a ier ad es 
a 


2017-06-10 14 56 14 ndpi 1623392_37214. 2017-06-10_14.49 45 ndpi 16 30465 15515 — 20170610 1617 $9.ndpi 1625066_18339. 2017.06.10 151923 


un pon . -， 游 
i: r ? i 
3 z 
s. $ 
Normal4.ndpi.15.8691 10349. mormalg ndpi 17.57584 12532. 


e 


rormall2 ndpi 16.2043 24176. 
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由 此 可 见 ， 这 里 除了 颜色 偏 深 紫色 且 细胞 排列 较 致 密 的 样本 出 现 明显 漏 检 以 外 ， 其 他 情况 
下 主要 还 是 假 阳 性 。 这 样 ， 就 可 以 把 模型 当 作 一 个 实习 医生 ， 对 病理 切片 做 一 个 初 筛 ， 然 后 进 
一 步 将 结果 给 专家 医师 确认 。 





11.7 参考 文献 及 网 页 链接 


Ñ 





[1] Data Dream 病理 切片 识别 AI 比赛 . Available at: http://www.datadreams.org/race-data-3. 
html. 

[2] Shelhamer, E., Long, J. &amp; Darrell, T. Fully Convolutional Networks for Semantic 
Segmentation. [1605.06211] Fully Convolutional Networks for Semantic Segmentation (2016). 
Available at: https://arxiv.org/abs/1605.06211. 

[3] Tai, L., Ye, H., Ye, Q. &amp; Liu, M. PCA-aided Fully Convolutional Networks for 
Semantic Segmentation of Multi-channel fMRI. [1610.01732] PCA-aided Fully Convolutional 
Networks for Semantic Segmentation of Multi-channel fMRI (2017). Available at: https://arxiv.org/ 
abs/1610.01732. 
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深度 学 习 App 


本 章 将 制作 一 个 可 以 在 iPhone 上 利用 摄像 头 识别 猫 狗 ， 并 且 可 视 化 卷 积 神经 网 络 关注 的 区 
域 的 一 个 应 用 程序 。 





12.1 CAM 可 视 化 








首先 回顾 一 下 在 5.3.3 节 讲 过 的 全 局 平均 池 化 层 (GlobalAveragePooling，GAP) 的 相关 知 
WA. GAP 通常 用 在 卷 积 神经 网 络 的 最 后 一 层 ， 用 于 降 维 ， 使 用 GAP 层 可 以 极 大 地 降低 特征 
的 维度 ， 使 全 连接 层 参数 不 至 于 过 多 ， 保 留 了 特征 的 强度 信息 ， 丢 弃 了 特征 的 位 置信 息 ， 因 为 
是 分 类 问题 ， 对 位 置信 息 不 敏感 ， 所 以 使 用 GAP 层 来 降 维 效果 很 好 。 

周 博 磊 对 GAP 层 进 行 了 思考 后 指出 ， 可 以 对 卷 积 层 的 输出 加 权 平均 ， 权 重 是 GAP 层 到 这 
个 分 类 的 权重 ， 如 图 12-1 所 示 。 


深度 


12. 


学 习 技 术 图 像 处 理 入 门 
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Figure 2. Class Activation Mapping: the predicted class score is mapped back to the previous convolutional layer to generate the class. 


activation maps (CAMs). The CAM highlights the class-specific discriminative regions. 


12-1 CAM 可 视 化 的 原理 


这 样 就 能 得 到 一 个 CAM (Class Activation Mapping) 可 视 化 图 , 也 就 是 类 激活 图 。 简单 来 说 ， 
可 以 在 最 后 一 层 卷 积 层 后 面 加 一 层 。 


参考 链接 : http://cnnlocalization.csail.mit.edu/ 


2 导出 分 类 模型 和 CAM 可 视 化 模型 





模型 


本 节 会 介绍 如 何 训练 一 个 识别 猎狗 的 模型 ， 导 出 对 应 的 分 类 器 以 及 输出 CAM. 可 视 化 图 的 


12.2.1 载 入 数据 集 


载 入 数据 集 的 代码 如 下 : 


import cv2 
import numpy as np 
from tqdm import tqdm 


n = 25000 
width = 224 


X = np.zeros((n, width, width, 3), dtype-np.uint8) 
y = np.zeros((n, 2), dtype-np.uint8) 


for i in tqdm(range (n/2)): 


% i), (width, 


X[i] = cv2.resize(cv2.imread('train/cat.$d.jpg' $ i), (width, 
width)) 
X[i*n/2] = cv2.resize(cv2.imread('train/dog.$d.jpg' 
width)) 
yl:n/2, 0] = 1 
viln/ 2: Eom 


236 


第 12 章 ”知行 合 一 一 一 如 何 写 一 个 深度 学 习 App 


这 里 与 之 前 的 猫 狗 大 战 不 太一 样 的 地 方 就 是 y 变 成 了 两 个 维度 ,因为 需要 把 猫 编码 成 [1, 0]、 
狗 编码 成 [0, 1]， 才 能 针对 分 类 进行 CAM 可 视 化 。 

如 果 是 一 个 神经 元 sigmoid 做 二 分 类 ， 模 型 只 会 把 狗 对 应 的 权 值 加 大 ， 对 模型 来 说 ， 猫 和 
其 他 背景 没有 差别 ， 因 此 需要 和 弄 两 个 维度 ， 然 后 用 softmax 激活 函数 ， 这 样 模型 就 不 能 仅 分 辨 狗 
和 非 狗 了 ， 因 为 如 果 把 猫 也 看 作 背 景 ，softmax 之 后 没 办 法 让 猫 的 输出 比 狗 大 。 


12.2.2 提取 特征 
提取 特征 的 代码 如 下 : 


from keras.layers import * 

from keras.models import * 

from keras.applications import * 
from keras.optimizers import * 


from keras.regularizers import * 


def preprocess input (x): 
return x - [103.939, 116.779, 123.68] 


def get features (MODEL, data-X): 
cnn model = MODEL(include top-False, input shape-(width, width, 3), 


weights-'imagenet') 


inputs = Input((width, width, 3)) 

x = inputs 

x = Lambda(preprocess input, name='preprocessing') (x) 
x = cnn model (x) 

X — GlobalAveragePooling2D() (x) 


cnn model = Model(inputs, x) 


features = cnn model.predict(data, batch size-64, verbose-1) 


return features 
features = get features (ResNet50, X) 


这 里 使 用 经 过 ImageNet 预 训练 的 ResNet50 提取 特征 。 


12.2.3 搭建 和 训练 分 类 器 
搭建 和 训练 分 类 器 的 代码 如 下 : 


inputs = Input (features -shape[1:]) 
X — inputs 


X — Dropout (0.5) (x) 
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x = Dense(2, activation-'softmax', kernel regularizer=12(le-4)，bias 
regularizer-1?2 (1e-4)) (x) 

model — Model(inputs, x, name-'prediction') 
model.compile(optimizer-'adam', 

loss-'binary crossentropy', 

metrics-['accuracy']) 
h = model.fit(features, y, batch size-128, epochs-10, validation split-0.2) 
# Epoch 10/10 loss: 0.0336 - acc: 0.9889 - val loss: 0.0453 - val acc: 0.9856 


这 个 模型 非常 简单 ， 直 接 搭建 一 个 全 连接 分 类 器 ， 然 后 用 adam 优化 器 来 训练 就 好 了 。 模 
型 在 第 10 代 的 时 候 ， 准 确 率 可 以 达到 98.5% 以 上 。 


12.2.4 搭建 分 类 模型 和 CAM 模型 
首先 获取 刚才 训练 的 模型 的 全 连接 权 值 : 


weights = model.get weights() [0] 


然后 搭建 模型 时 ， 要 注意 这 一 点 ， 目 前 Keras 官方 提供 的 ResNet50 最 后 一 层 带 有 一 个 C7, 
7) 的 池 化 层 ， 但 是 需要 输出 卷 积 层 的 原始 数据 ， 而 不 是 把 每 个 激活 图 压缩 成 一 个 点 ， 因 此 取 倒 
数 第 二 层 搭建 成 一 个 新 的 enn. model， 再 去 搭建 CAM 模型 。 

在 对 卷 积 层 输出 的 激活 图 进行 加 权 平 均 的 时 候 ， 可 以 理解 为 是 卷 积 核 大 小 为 1X1 的 不 带 
bias 的 卷 积 层 。 

分 类 器 就 简单 了 ， 直 接 用 GlobalAveragePooling2D 进行 平均 ， 然 后 用 刚才 训练 的 model 算 
一 下 就 好 了 。 


cnn model ResNet50(include top-False, 
input shape- (width, width, 3), 
weights-'imagenet' 

) 


cnn model - Model(cnn model.input, cnn model.layers[-2].output, 


name-'resnet50') 


inputs = Input((width, width, 3)) 

X = inputs 

X = cnn model (x) 

cam = Conv2D(2, 1, use bias-False, name-'cam') (x) 


model cam - Model(inputs, cam) 
X — GlobalAveragePooling2D (name-'gap') (x) 


x = model (x) 


model clf = Model(inputs, x) 
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载 入 权 值 的 时 候 需要 把 weights JÀ (2048, 2) reshape 成 (1, 1, 2048,2) ， 然 后 载 入 到 
model cam 的 最 后 一 个 1X 1 卷 积 层 里 。 


model cam.layers[-1].set weights([weights.reshape((1, 1, 2048, 2))]) 


搭建 好 以 后 模型 的 可 视 化 如 图 12-2 所 示 。 


In [12]: SVG(model to dot(model cam, show shapes-True).create(prog-'dot', format-'svg')) 








man f: Sc InputLayer | pee [ None, 224,224,3) 
p Input ayer | ut | (None, 224, 224,3) 




















rosnet50: Mode! P'E (None, 224, 224,3) | 
output: | (None, 7, 7, 2048) | 

















cam: Conv2D | | Cone, 7,7,240) 
output: | (None, 7,7,2) 

















In [13]: SVG(model to dot(model clf, show_shapes=True).create(prog='dot', format='svg')) 
mms - 
input: | (None, 224, 224, 3) 
input. 5: InputLayer 55 
output: | (None, 224, 224, 3) 


input: ,224, 224, 3) 
ae Mode! [input [ (None. 224,224, 3) 
netso: Model Fut | (None, 7,7, 2048) 



































: GlobalAveragePooling2D | PEE | Cone. 7 7,2048) 
gap: ei Average oO E | unpu: | (None, 2048) 

















iction: Model input | (None, 2048) 
m output: | (None. 2) 


图 12-2 CAM 模型 和 分 类 器 的 结构 可 视 化 


























12.2.5 可 视 化 测试 
我 们 可 以 利用 刚才 搭建 的 两 个 模型 尝试 可 视 化 , 首先 用 model_clf 预测 这 张 图 片 是 猫 还 是 狗 。 


它 会 输出 两 个 概率 : 第 一 个 是 猫 的 ， 第 二 个 是 狗 的 ， 我 们 取 猫 的 概率 ， 也 就 是 prediction[0, 0]. 
然后 用 model cam 输出 两 张 CAM 可 视 化 的 图 ， 模 型 输出 的 shape 是 (1, 7, 7, 2)， 可 以 简单 
] cam[0, ;, :, 1 if prediction < 0.5 else 0] 来 提取 对 应 类 别 的 CAM 图 。 

之 后 我 们 进行 一 些 调整 ， 首 先 将 图 片 整 体 缩小 110， 因 为 CAM 图 的 数值 范围 大 概 在 -5~30， 
均值 大 约 是 6， 所 以 经 过 几 次 调整 ， 除 以 10 是 可 视 化 效果 比较 好 的 数值 ， 然 后 将 数值 限制 在 
0~1 之 间 ， 并 转换 为 Uint8 (因为 接 下 来 的 染色 需要 Uint8 的 格式 ) 。 

对 CAM 的 染色 使 用 OpenCV 的 函数 以 及 颜 
& camiza , GOAT COLORMAP M 
12-3 JET 颜色 条 


JET 的 样式 。 
参考 链接 : http;//docs.opencv.org/trunk/d3/d50/group imgproc colormap.html. 


最 后 将 染色 的 heatmap 加 在 原 图 上 ， 形 成 最 终 的 可 视 化 效果 图 〈 见 图 12-4) 。 























N 


E 
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import matplotlib.pyplot as plt 

import random 

$matplotlib inline 

S$config InlineBackend.figure format = 'retina' 

# 用 模型 进行 预测 

index = 13734 

img = X[index] 

prediction = model clf.predict(np.expand dims (img, 0)) 


prediction = prediction[0, 0] 


cam = model cam.predict (np.expand dims(img, 0)) 


cam = cam[0, :, :, 1 if prediction < 0.5 else 0] 
* 调整 caw 的 范围 

cam /= 10 

cam[cam < 0] = 0 

cam[cam > 1] = 1 


cam = cv2.resize(cam, (224, 224)) 
cam = np.uint8 (255*cam) 


# 染 成 彩色 
heatmap = cv2.applyColorMap(cam, cv2.COLORMAP JET) 


# 加 在 原 图 上 
out = cv2.addWeighted(img, 0.8, heatmap, 0.4, 0) 


# 显示 图 片 
plt.axis('off') 
plt.imshow(out[:,:,::-1]) 








出 


12-4 全 加 了 CAM 可 视 化 的 图 片 
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12.2.6 保存 模型 
保存 模型 的 代码 如 下 : 


model clf.save('model clf.h5') 


model cam.save('model cam.h5') 


12.2.7 导出 mlmodel 模型 文件 


在 iOS 11 中 ， 可 以 直接 使 用 Keras 的 模型 ， 只 需要 使 用 苹果 的 模型 转换 库 Core ML Tools 
将 Keras 以 HDF5S 格式 存储 的 模型 转换 为 苹果 使 用 的 mlmodel 格式 即 可 。 

参 考 链 接 : https//developer.apple.com/documentation/coreml/converting trained models to - 
core ml. 

这 里 会 设置 一 些 必 要 的 参数 ， 比 如 RGB 的 偏 移 ， 设 置 输入 /输出 的 名 字 、 介 绍 等 ， 然 后 保 
存 模型 。 


from coremltools.converters.keras import convert 


coreml model = convert('model clf.h5', 
blue bias-103.939, 
green bias-116.779, 
red bias-123.68, 
input names-['image'], 
image input names-'image', 


output names-'prediction' 


coreml model.author = 'YPW' 

coreml model.short description = 'Dogs vs Cats' 

coreml model.license = 'MIT' 

coreml model.input description['image'] = 'A 224x224 Image." 

coreml model.output description['prediction'] = 'The probability of Dog 
and Cat. 


coreml model.save('model clf.mlmodel') 

然后 是 cAM 模型 : 

coreml model = convert('model cam.h5', blue bias-103. 939, green bias-116.779, 
red bias-123.68, input names-['image'], 
image input names-'image', output 


names-'cam') 


coreml model.author = 'YPW' 

coreml model.short description = 'Dogs vs Cats' 

coreml model.license — 'MIT' 

coreml model.input description['image'] = 'A 224x224 Image." 
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coreml model.output description['cam'] = 'The cam Image." 


coreml model.save('model cam.mlmodel') 





12.3 开始 编写 App 
本 节 将 开始 编写 一 个 App， 创 建 一 个 可 以 使 用 OpenCV 调用 摄像 头 读 取 图 片 的 App， 这 也 
是 下 一 节 使 用 深度 学 习 模 型 的 前 提 。 首 先 创 建 工 程 ， 然 后 测试 工程 ， 最 后 配置 工程 。 





12.3.1 创建 工程 
创建 工程 的 操作 步骤 如 下 : 
人 ED) 打开 Xcode 9， 选 择 Create a new Xcode project 选项 ， 创 建 一 个 工程 ， 如 图 12-5 所 示 。 


ial 


Welcome to Xcode No Recent Projects 








[s] Set started with a pi 
LA xplore new ideas quicky and easiy. 


因 crestea now code proiect 
网 Gia an aop r Prona, Paa, Mac, Apoia Wateh or joi I 





isting project 
Start working on something from an SCM repository. 


@ Show this window when Xcode launches Open another project... 


图 12-5 选择 Create a new Xcode project 创建 工程 





话 框 中 选择 Single View App， 然 后 单 击 Next 按钮 ， 如 图 12-6 所 示 。 





E2 在 弹出 的 对 


Choose a template for your new project: 
[EE] vanos wos maos cross-platorm 
| Application 


Ds oeo 
Cm om Amd Semerdeet Mores 





ER 5 
Tabbed App. Sticker Pack App. iMessage App. 








Page-Based App. 
m 
合 A) R 
Cocoa Touch Cocoa Touch Metal Library 
Framework Static Library 
E aA 


图 12-6 选择 Single View App 
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Eo 在 弹出 的 对 话 框 中 输入 工程 名 (如 CAM) ， 然 后 选择 使 用 Objective-C 语言 进行 开发 ， 因 为 
要 使 用 OpenCV， 它 暂时 不 支持 Swift， 如 图 12-7 所 示 。 





























Choose options for your new project: 





Product Name: CAM 
Team: Peiwen Yang 


o 


Organization Name: 杨 培 文 ] 

Organization Identifier: com.yangpeiwen | 

Bundle identifier: comyangpeiwen. CAM 
Language: Objective-C 


Use Core Data 
T include Unit Tests 
Include Ul Tests 


o 











Cancel Previous  — Next 











图 12-7 输入 工程 名 和 选择 语言 


CX 在 弹出 的 对 话 框 中 ， 关 闭 横 屏 模式 ， 如 图 12-8 所 示 。 





E e| = AC m prere t oi Chi meaty | baoy = 0128 =o citu 


Tesoros Topa 








图 12-8 关闭 横 屏 模式 
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12.3.2 配置 工程 

接 下 来 开始 配置 工程 , 需要 添加 库 文 件 、 添 加 依赖 项 、 在 mnfo 中 添加 摄像 头 权限 修改 后缀 名 、 
添加 必要 的 头 文件 、 配 置 好 委托 事件 以 及 摄像 头等 。 

1. 添加 库 文 件 

添加 库 文件 的 步骤 如 下 : 


ED) 首先 下 载 OpenCV 为 iOS 系统 编译 的 库 文件 ， 然 后 拖 入 OpenCV (opencv2.framework) 到 
工程 左边 的 文件 列表 中 ， 如 图 12-9 所 示 。 











> Å CAM ) WÈ iPhone 8 Plus 


百 回 完 QA 人 至 口罩 | 名 h 
vB cam E] ACA o 
bd 5 CAM 

"i. AppDalegate.h Y Identity 

m AppDelegate.m 

^; ViewController.h 

m) ViewController.m 

已 Main.storyboard 

图 Assets.xcassets. 

站 LaunchScreen.storyboard 

司 Info.plist M 








m, main.m 


v 
» B Products Signing 











图 12-9 将 opencv2.framework 拖 入 左 侧 列表 中 





C02 单 击 Finish 按钮 完成 添加 ， 如 图 12-10 所 示 。 


Choose options for adding these files: 





Destination: Copy items if needed. 
Added folders: ^ Create groups 
© Create folder references. 


Add to targets: | 7 A CAM 

















图 12-10 3d Finish 完成 添加 











2. 添加 依赖 库 
因为 OpenCV 调用 摄像 头 、 进 行 流 媒 体 处 理 需 要 一 些 库 ， 所 以 需要 添加 依赖 库 ， 可 以 在 
CAM > Build Phases 一 Link Binary With Libraries 选项 中 配置 依赖 的 库 ， 如 图 12-11 所 示 。 
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E: B cam 
四 Acme General Capabilities Resource Tags. Info. Build Settings. Build Phases. Build Rules 
* © 


> Target Dependencies (0 items) 


> Compile Sources (3 items) x 
™ Link Binary With Libraries (4 items) x 
Mil CoreMedia framework Required $ 
国 Avrounaationframework Required $ 
4B AssetsL ibrary framework Required $ 
i opencv2.tramework Required 7 
> Copy Bundle Resources (3 items) x 











图 12-11 选择 要 添加 的 依赖 库 


主要 添加 以 下 依赖 库 : 





*  AssetsLibrary 
e  AVFoundation 
*  CoreMedia 


3. 在 Info 中 添加 摄像 头 权限 


因为 本 应 用 目的 是 通过 摄像 头 分 辨 猎狗 ，iOS 调用 摄像 头 需要 经 过 用 户 同 意 ， 为 了 弹出 
用 户 同意 的 窗口 ， 需 要 添加 摄像 头 权 限 ， 在 Info 中 的 Supported interface orientations 栏 下 添 
加 Privacy - Camera Usage Description 选项 ， 然 后 写 上 提示 语 ， 如 图 12-12 所 示 。 








* Custom iOS Target Properties 
Key Type Value 
> Required device capabilities © Array {1 item) 
Bundle identifier $ String S(PRODUCT. BUNDLE. IDENTIFIER) 
InfoDictionary version $ String 6.0 
Main storyboard file base name $ String Main 
Bundle version $ String 1 
Launch screen interface file base name 5 — String LaunchScreen 
Executable file $ String S(EXECUTABLE. NAME) 
Application requires iPhone environm.. ^ ^ Boolean Yes $ 
Bundle versions string, short $ Sting 10 
» Supported interface orientations $ Array (1 item) 
Bundle OS Type code 2 String APPL 
Localization native development region 2 String S(DEVELOPMENT. LANGUAGE) s 
> Supported interface orientations (iPad) ^ Array (4 items) 
Bundle name $ String S(PRODUCT NAME) 











图 12-12 设置 摄像 头 权限 


4. 修改 后 缀 名 


为 了 支持 C++， 需 要 将 ViewControllerm 文件 的 后 级 名 修改 为 ViewControllermm， 如 图 
12-13 所 示 。 
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图 12-13 修改 后 缀 名 


5. 添加 必要 的 头 文件 
在 ViewController.h 文件 中 添加 必要 的 头 文件 : 


#import «opencv2/videoio/cap ios.h» 
#import «opencv2/imgcodecs/ios.h» 
#import «opencv2/highgui/highgui.hpp» 
fimport «opencv2/imgproc/imgproc.hpp» 


6. 配置 好 委托 事件 以 及 摄像 头 
首 先 在 ViewControllerh X 件 中 的 UIViewController 后 面 添 加 一 个 委托 
<CvVideoCameraDelegate>， 如 图 12-14 所 示 。 





/} ViewController.h 
11 CAM 


1 
2 

3 

4 

5 // Created by 杨 培 文 on 2017/10/4. 

é // Copyright e 20174 $8)8X. All rights reserved. 
7 

8 


9 #import «UIKit/UIKit.h» 

^0 Mimport «opencv2/videoio/cap ios.h» 
^1 #import «opencv2/imgcodecs/ios.h» 

12 Mimport «opencv2/highgui/highgui.hpp» 
13 #import «opencv2/imgproc/imgproc.hpp» 





15 Ginterface ViewController : UlViewController «CvVideoCameraDelegate» 


18 Gend 











图 12-14 添加 委托 <CvVideoCameraDelegate> 


然后 在 ViewController.mm 中 添加 函数 : 


- (void)processImage: (cv::Mat &)input img ( 
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当 摄 像 头 有 新 的 图 像 传 过 来 的 时 候 ， 就 会 调用 这 个 函数 来 传 入 图 片 ， 可 以 在 这 个 函数 中 编 
写 图 像 处 理 程序 。 


我 们 还 需要 在 viewDidLoad 函数 中 添加 初始 化 摄像 头 的 代码 : 


CvVideoCamera * camera; 
- (void)viewDidLoad ( 
[super viewDidLoad]; 
// 初始 化 摄像 头 
camera = [[CvVideoCamera alloc] init]; 
camera.defaultAVCaptureDevicePosition = AVCaptureDevicePositionBack; 
camera.defaultAVCaptureSessionPreset = AVCaptureSessionPreset192 
0x1080; 
camera.defaultAVCaptureVideoOrientation - AVCaptureVideoOrientationP 
ortrait; 
camera.defaultFPS - 30; 
camera.grayscaleMode - false; 
camera.delegate - self; 


[camera start]; 
Jj 
7. 添加 UllImageView 到 Main.storyboard 


为 了 能 够 显示 图 片 ， 需 要 在 Main.storyboard 中 添加 一 个 UIImageView， 然 后 调整 它 的 位 置 ， 
建议 放置 在 如 图 12-15 所 示 的 位 置 。 





Layout Margins Default B 
+ ~ Preserve Superview Margins 
l oom ] + Follow Readable Width 

+ E) Sate Aroa Relative margins 
T Sefe Area Layout Guide. 











^" S 

AR 回 1:1 Ratio to: Image View 加 

m Tang Spaceto: sois Edit 

(B eamspree soovis tm 
Top Spoce to: ones 

e Equals: 20 c 


| Showings ote 





Content Hugging Priority 
Horizontal | 251 = 上 














图 12-15 放置 图 片 的 位 置 


设置 图 片 的 宽 高 比 为 1:1， 以 显示 模型 输入 图 片 的 效果 ， 距 离 顶 部 一 定 的 距离 ， 避 免 时 间 显 
示 在 图 片上 。 
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接 下 来 需要 将 UIImageView 链接 到 程序 中 ， 首 先 
单 击 右上 和 角 的 两 个 圆圈 (Show the Assistant editor) , 


切换 到 如 图 12-16 所 示 的 界面 ， 然 后 按 住 Cal 键 将 | | Show the assistant editor | 


UIImageView 拖 到 如 图 12-17 所 示 的 位 置 。 1216 H7HERHARE 








/| ViewController.m 
11 CAM 











/| Created by 杨 培 文 on 2017/10/4. 
/| Copyright e 2917 年 H&IBXt. All rights reserved. 


import "ViewController.h* 


Ginterface ViewController () 





Cend 
Gimplementation ViewController 


UlimageView CwWideoCamers + camera; 
~ (void)viewDidLoad € 
[super vienDidLoad]; 
HODIE 
camera = [[CwidecCamera alloc] init]; 
camera.defaultAVCaptureDevicePosition = 
AvCaptureDevicePositionBack; 
camera.defaultAVCaptureSessionPreset = 
AvCaptureSessionPreset352x 
camera. defaultAVCaptureVideoOrientation = 
AVCaptureVidecOrientationPortrait; 
camera .defaultFPS = 30; 
camers.grayscaleMode = false; 
z camera.delegate = self; 

















图 12-17 拖 动 UllmageView 到 相应 的 位 置 





接 下 来 输入 名 称 imageView， 就 成 功 将 UI 链 接 到 代码 中 了 ， 如 图 12-18 所 示 。 


/17 ViemController.m 
Ji CAM 





oom ) 











1 
1 

3 

n 

5 // Created by $83 on 2017/10/4. 

& // Copyright e 20175 SB. All rights reserved. 
7 

a 

9 


#import "ViewController.h" 


interface ViewController () 
Oproperty (weak, nonatomic) IBOutlet UIImageView 
*imageView; 


Cend 
Gimplementarion ViewController 


CwWideoCamera * camera; 

= (void)viewDidLoad { 
[super viewDidLoad]; 
IRI 
camera = [[CvVideoCamera alloc) init]; 
camera.defaultAVCaptureDevicePosition = 

AlCaptureDevicePositionBack; 

camora.defaultAVCapturoSossionPresot = 














26 camera.defaultFPS = 
27 camera.grayscaleMode = false; 
camera.delegate = self; 





2») 


图 12-18 输入 名 称 imageView 
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12.3.3 测试 工程 


我 们 可 以 先 做 一 个 简 
于 显示 摄像 头 图 片 ， 然 后 在 processImage 函数 中 编写 显示 图 

















外 的 读 取 摄 像 头 App， 在 Main.storyboard 中 放置 一 个 ImageView, } 
片 的 代码 : 











— (void)processImage: (cv: :Mat &)input img ( 
Cv::cvtColor(input img, input img, CV BGR2RGB); 
dispatch async(dispatch get main queue(), ^( 
.imageView.image - MatToUIImage(input img); 
); 
) 
第 一 名 代码 是 因为 OpenCV 的 图 像 格式 是 BGR，iOS 的 顺序 是 RGB， 因 此 需要 进行 转换 ， 


第 二 句 意 思 是 显示 代码 需要 在 主线 程 中 执行 ， 不 然 UI 不 会 更 新 。 








12.3.4 运行 程序 

将 手机 与 电脑 连接 ， 设 置 调试 设备 为 你 的 手机 (可 以 看 到 图 中 的 手机 叫 YPWO ， 然 后 单 击 
b 按钮 开始 运行 ， 测 试 项 目 ， 如 图 12-19 所 示 。 

可 以 在 手机 上 看 到 摄像 头 拍 摄 到 的 画面 ， 如 图 12-20 所 示 。 





22:52 9 * W100% F 
































w| 
v È CAM M | 1o8 
Y 7 CAM 09 





12-19 将 手机 与 电脑 连接 12-20 摄像 头 拍摄 的 画面 


249 


深度 学 习 技术 图 像 处 理 入 门 
12.4 使 用 深度 学 习 模 型 
本 节 会 在 12.3 节 措 建 工程 的 基础 上 ， 使 用 之 前 导出 的 模型 对 摄像 头 拍 到 的 图 像 进行 猫 狗 分 


类 ， 并 且 进 行 CAM 可 视 化 。 之 前 模型 导出 部 分 ， 详 见 本 书 附 带 的 代码 https://github.com/Jinglue/ 
DL4Img/blob/masternotebook/Lecture1l2.ipynb。 

















12.4.1 将 模型 导入 到 工程 中 
Target Membership 
将 模型 导入 到 工程 中 的 操作 步骤 如 下 : 一 一 一 一 一 一 


图 A CAM 
CXXo) 将 模型 拖 入 左 侧 的 工程 文件 夹 中 ， 然 后 单 击 模型 文件 ， 配 
置 模型 的 Target Membership 为 CAM， 如 图 12-21 所 示 。 12-21 将 模型 添加 到 项 目 中 
CX 在 头 文件 中 引入 模型 文件 : 





























#import "model clf.h" 
#import "model cam.h" 


如 果 这 一 步 报错 ， 请 检查 模型 是 否 正确 导入 到 工程 中 。 


12.4.2 数据 类 型 转换 函数 


于 我 们 的 图 片 是 通过 OpenCV 调用 摄像 头 获取 的 ， 获 取 到 的 图 片 格式 是 cv::Mat， 但 是 模 
型 的 输入 类 型 为 CVPixelBufferRef， 因 此 需要 一 个 转换 函数 : 




















- (CVPixelBufferRef)pixelBufferFromCGImage: (CGImageRef) image 
{ 
NSDictionary *options = Q((id)kCVPixelBufferCGImageCompatibilityKey: QYES, 
(id)kCVPixelBufferCGBitmapContextCompatibilityKey: Q YES); 
CVPixelBufferRef pxbuffer = NULL; 
size t width - CGImageGetWidth (image); 
height = CGImageGetHeight (image); 
CVReturn status - CVPixelBufferCreate (kCFAllocatorDefault, 
width, height, kCVPixelFormatType 32ARGB, 
( bridge CFDictionaryRef) options, &pxbuffer 
); 
NSParameterAssert (status == kCVReturnSuccess && pxbuffer != NULL); 


CVPixelBufferLockBaseAddress (pxbuffer, 0); 
void *pxdata = CVPixelBufferGetBaseAddress (pxbuffer) ; 
NSParameterAssert (pxdata != NULL); 


CGColorSpaceRef rgbColorSpace = CGColorSpaceCreateDeviceRGB (); 
CGContextRef context = CGBitmapContextCreate( 
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pxdata, width, height, 8, 4*width, 
rgbColorSpace, kCGImageAlphaNoneSkipFirst 


); 
NSParameterAssert (context); 


CGContextDrawImage (context, CGRectMake(0, 0, width, height), image); 
CGColorSpaceRelease (rgbColorSpace); 


CGContextRelease (context); 
CVPixelBufferUnlockBaseAddress (pxbuffer, 0); 


return pxbuffer; 
} 

这 个 函数 可 以 将 CGImage 转换 为 CVPixelBufferRef， 因 此 图 像 转 换 全 过 程 为 : 先 通过 
processImage 函数 获取 到 cv::Mat 格式 的 图 片 ， 再 通过 OpenCV 自 带 的 MatToUIImage 函数 转换 
为 UIImage 类 型 ，UIImage 格式 很 容易 转换 为 CGImage 格式 ， 调 用 方法 是 image.CGImage， 然 
后 传 入 pixelBufferFromCGImage 得 到 CVPixelBufferRef 格式 。 


1. 转换 图 像 为 正方 形 

由 于 模型 有 全 连接 ， 因 此 必须 输入 固定 尺寸 的 图 像 。 固 定 尺寸 有 两 种 方式 ， 一 种 是 切割 再 
缩放 ， 另 一 种 是 直接 拉 伸 。 直 接 拉 伸 会 改变 宽 高 比 ， 从 16:9 拉 到 1:1 时 改变 比较 大 ， 所 以 还 是 
保持 宽 高 比 好 一 些 ， 选 择 先 切割 再 缩放 的 方法 。 

// 转换 图 像 为 正方 形 

cv::cvtColor(input img, input_img, CV_BGR2RGB); 

input img = input img(cv::Rect(0, 0, input img.cols, input img.cols)); 

cv::Mat smalllImage; 

Ccv::resize(input img, smalllmage, cv::Size(224, 224)); 


UIImage * image = MatToUIImage (smallImage); 


2. 用 模型 进行 预测 

转换 为 《224, 224,3) 的 图 片 以 后 ， 就 可 以 输入 到 模型 进行 预测 了 。 

首先 将 UIImage 转换 为 CVPixelBufferRef， 然 后 直接 调用 模型 的 predictionFromImage 函数 。 
对 于 分 类 器 〈clf) 预测 出 来 的 结果 ， 直 接 取 第 一 个 值 就 好 。CAM 模型 的 输出 是 一 个 矩阵 ， 还 需 
要 进一步 转换 才能 使 用 OpenCV 的 函数 进行 处 理 。 

代码 如 下 : 


CVPixelBufferRef bufferRef = [self pixelBufferFromCGImage:image.CGImage]; 
float prediction = [clf predictionFromImage:bufferRef error:nil]. 


prediction[0].floatValue; 
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MLMultiArray * featuremap = [cam predictionFromImage:bufferRef 


error:nil].cam; 
CVPixelBufferRelease (bufferRef) ; 


12.4.8 实施 CAM 可 视 化 

接 下 来 就 是 实现 上 面 可 视 化 测试 的 C++ 版 。 首 先 转换 MLMultiArray 类 型 为 cv::Mat 类 型 ， 
然后 调整 范围 ， 染 色 ， 并 加 在 原 图 上 ， 生 成 CAM 可 视 化 图 。 染 色 是 从 0~1 映射 到 蓝 ~ 红 的 一 
个 过 程 。 

1. 将 MLMultiArray 转换 为 Mat 

首先 构建 一 个 (7, 7) 的 图 ， 然 后 从 featuremap 中 取 数 。 可 以 从 模型 中 看 到 ， 模 型 的 输出 
shape 是 (2, 7, 7)， 如 图 12-22 所 示 。 

















BR € > B CAM) ?* CAM) a model cam.mlmodel 
™ Machine Learning Model 
Name model cam 
Type Neural Network 
Size 94.4 MB 
Author YPW 


Description Dogs vs Cats 
License MIT 


了 Model class 


modelcam © 
Automatically generated Objective-C model class 


V Model Evaluation Parameters. 


Name Type Descriptior 
V inputs 
image Image (Color 224 x 224) A 224x224 Image. 
Y outputs 
cam MultiArray (Double2 x 7x7) ^ — The cam Image. 











12-22 CAM 模型 的 基本 信息 


因此 , 可 以 写 出 这 样 的 代码 : 如 果 是 猫 , 就 取 第 一 个 CAM 图 , 下 标 是 [i*7+j], 否则 取 第 二 个 ， 
下 标 是 [49+i*7+j]。 





cv::Mat img cam(7, 7, CV 32F); 
FOEDE L = 0k EM LE) 
| 
for inte 0785] cud; TTEN 
if(prediction » 0.5)( 
img cam.row(i).col(j) = featuremap[i*7-*j].floatValue; 
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img cam.row(i).col(j) = featuremap[49+i*7+j] .floatValue; 


2. 调整 cam 的 范围 


此 部 分 与 之 前 的 Python 代码 是 一 个 逻辑 ， 先 缩放 ， 再 限制 在 0 ~ 1 的 范围 内 ， 放 大 到 和 原 
图 一 样 的 尺寸 ， 并 转换 成 uint8 格式 。 

有 一 点 不 同 的 就 是 ， 缩 放 的 尺寸 不 是 (224, 224)， 而 是 (1080, 1080)， 目 的 是 为 了 让 图 片 更 
加 清晰 。 


int width = input img.rows; 
img cam /- 10; 

img cam.setTo(0, img cam « 0); 
img cam.setTo(1, img cam » 1); 


cv::resize(img cam, img cam, cv::Size(width, width)); 


cv::Mat img cam2; 
img cam2 = img cam * 255; 


img cam2.convertTo(img cam2, CV 8U); 


3. 染 成 彩色 和 加 在 原 图 上 

这 部 分 代码 的 逻辑 也 与 之 前 的 Python 代码 一 样 : 
// 染 成 彩色 

cv::Mat heatmap(width, width, CV 8UC3); 


cv::applyColorMap(img cam2, heatmap, cv::COLORMAP JET); 
cv::cvtColor(heatmap, heatmap, CV BGR2RGB); 


// 加 在 原 图 上 
cv::Mat outImage (width, width, CV 8UC3); 
cv::addWeighted(input img, 0.8, heatmap, 0.4, 0, outImage); 


4. 显示 图 片 和 文字 
最 后 将 概率 显示 在 Label 上 ， 将 图 片 显示 在 imageView 上 。 这 里 需要 在 Main.storyboard 中 
拖 出 一 个 Label 到 界面 中 央 ， 然 后 链接 到 代码 中 。 右 侧 可 以 看 到 约束 条 件 ， 如 图 12-23 所 示 。 
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图 12-23 添加 一 个 Label 


NSString * resultString; 
if(prediction « 0.5)( 
[NSString stringWithFormat:Q" 狗 的 概率 : $.2f", 


resultString 
l-prediction]; 
} 


else( 


resultString [NSString stringWithFormat:Q" 猫 的 概率 : $.2f", 
prediction]; 


) 

dispatch async(dispatch get main queue(), ^{ 
.label.text = resultString; 
.imageView.image = MatToUIImage (outImage); 


2: 


12.4.4 模型 效果 


我 们 可 以 看 到 模型 通过 猫 的 脸 、 猫 的 胡子 以 及 猫 的 尾巴 来 判断 这 是 一 只 猫 的 概率 为 0.99， 
效果 很 棒 ， 如 图 12-24 所 示 。 
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e 1T9397,9,; 





猫 的 概率 : 0.99 





图 12-24 显示 猫 的 效果 


如 果 有 和 需要， 还 可 以 继续 编写 暂停 按钮 、 拍 照 按 钮 、 画 出 概率 曲线 等 功能 。 
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